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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书.精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书，翻译成中文，起初集结成八册，于 
2011年出版。这套丛书自出版以来，受到广大读者特别是年 
轻一代社会科学工作者的热烈欢迎。为了给广大读者提供 
更多的方便和选择，该丛书经过修订和校正，于2012年以单 
行本的形式再次出版发行，共37本。我们衷心感谢广大读者 
的支持和建议。 

随着与 SAGE 出版社合作的进一步深化，我们又从丛书 
中精选了三十多个品种，译成中文，以獪读者。丛书新增品 
种涵盖了更多的定量研究方法。我们希望本丛书单行本的 
继续出版能为推动国内社会科学定量研究的教学和研究作 
出一点贡献。 



2003 年，我赴港工作，在香港科技大学社会科学部教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候.根据社会科学研究生的数理基础比 
较薄弱的特点.尽量避免复杂的数学公式推导.而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 
方法论技术。 

上述两门课的内容,尽管在线性回归模型的内容上有少 
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量重复.但各有侧重。“社会科学里的统计学”从介绍最基本 
的社会研究方法论和统计学原理开始，到多元线性回归模型 
结束，内容涵盖了描述性统计的基本方法、统计推论的原理、 
假设检验、列联表分析、方差和协方差分析、简单线性回归模 
型、多元线性回归模型，以及线性回归模型的假设和模型诊 
断。“社会科学中的定量分析”则介绍在经典线性回归模型 
的假设不成立的情况下的一些模型和方法，将重点放在因变 
量为定类数据的分析模型上，包括两分类的 logistic 回归模 
型、多分类 logistic 回归模型、定序 logistic 回归模型、条件 lo ¬ 
gistic 回归模型、多维列联表的对数线性和对数乘积模型 、有 
关删节数据的模型、纵贯数据的分析模型•包括追踪研究和 
事件史的分析方法。这些模型在社会科学研究中有着更加 
广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集岀版，并帮助我将原来的英文课 
程讲稿译成了中文。但是，由于种种原因，这两本书拖了多 
年还没有完成。世界著名的出版社 SAGE 的“定量社会科学 
研究”丛书闻名遐迩，每本书都写得通俗易懂.与我的教学理 
念是相通的。当格致岀版社向我提出从这套丛书中精选一 
批翻译，以飨中文读者时，我非常支持这个想法.因为这从某 
种程度上弥补了我的教科书未能岀版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
语言的精准把握能力.还要有对实质内容有较深的理解能 
力.而这套丛书涵盖的又恰恰是社会科学中技术性非常强的 
内容，只有语言能力是远远不能胜任的。在短短的一年时间 
里，我们组织了来自中国内地及香港、台湾地区的二十几位 



研究生参与了这项工程，他们当时大部分是香港科技大学的 
硕士和博士研究生，受过严格的社会科学统计方法的训练， 
也有来自美国等地对定量研究感兴趣的博士研究生。他们是 
香港科技大学社会科学部博士研究生蒋勤、李骏、盛智明、叶 
华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、肖东 
亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究员李 
俊秀; 香港大学教育学院博士研究生洪 岩璧; 北京大学社会 
学系博士研究生李丁、赵 亮员； 中国人民大学人口学系讲师 
巫 锡炜； 中国台湾“中央”研究院社会学所助理研究员林宗 
弘; 南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳大 
学教堂山分校社会学系博士候选人姜 念涛; 美国加州大学洛 
杉矶分校社会学系博士研究生 宋曦； 哈佛大学社会学系博士 
研究生郭茂灿和周韵。 

参与这项工作的许多译者目前都已经毕业.大多成为中 
国内地以及香港、台湾等地区高校和研究机构定量社会科学 
方法教学和研究的骨干。不少译者反映.翻译工作本身也是 
他们学习相关定量方法的有效途径。鉴于此，当格致出版社 
和 SAGE 出版社决定在“格致方法 • 定量研究系列”丛书中 
推出另外一批新品种时，香港科技大学社会科学部的研究生 
仍然是主要力量。特别值得一提的是，香港科技大学应用社 
会经济研究中心与上海大学社会学院自2012年夏季开始， 
在上海(夏季）和广州南沙(冬季)联合举办“应用社会科学研 
究方法研修班”，至今已经成功举办三届。研修课程设计体 
现“化整为零、循序渐进、中文教学、学以致用”的方针，吸引 
了一大批有志于从事定量社会科学研究的博士生和青年学 
者。他们中的不少人也参与了翻译和校对的工作。他们在 
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繁忙的学习和研究之余，历经近两年的时间，完成了三十多 
本新书的翻译任务，使得“格致方法 • 定量研究系列”丛书更 
加丰富和完善。他 们是： 东南大学社会学系副教授洪岩璧， 
香港科技大学社会科学部博士研究生贺光烨、李忠路、王佳、 
王彦蓉、许多多，硕士研究生范新光、缪佳、武玲蔚、臧晓露、 
曾东林，原硕士研究生李兰，密歇根大学社会学系博士研究 
生王骁.纽约大学社会学系博士研究生温芳琪.牛津大学社 
会学系研究生周穆之，上海大学社会学院博士研究生陈 
伟等。 

陈伟、范新光、贺光烨、洪岩璧、李忠路、缪佳、王佳、武玲 
蔚、许多多、曾东林、周穆之，以及香港科技大学社会科学部 
硕士研究生陈佳莹，上海大学社会学院硕士研究生梁海祥还 
协助主编做了大量的审校工作。格致出版社编辑高璇不遗 
余力地推动本丛书的继续出版，并且在这个过程中表现出极 
大的耐心和高度的专业精神。对他们付出的劳动，我在此致 
以诚挚的谢意。当然，每本书因本身内容和泽者的行文风格 
有所差异，校对未免挂一漏万，术语的标准译法方面还有很 
大的改进空间。我们欢迎广大读者提出建设性的批评和建 
议，以便再版时修订。 

我们希望本丛书的持续出版，能为进一步提升国内社会 
科学定量教学和研究水平作出一点贡献。 


吴晓刚 

于香港九龙清水湾 



无论在学术界还是业界，抽样调查研究都是一个重要的 
领域。在社会科学的各个领域中，它都是很基础的工具，在 
很多大型调查中扮演了重要角色，包括全国选举调查 
CNational Election Studies ) 、芝加哥大学的国情调查中心 
(National Opinion Research Center , NORC ) 的综合社会调查 
(General Social Survey ) ， 以及密歇根大学调查研究中心 
(Survey Research Center ) 对消费者的调查等。这一方法几 
乎可以被用到任何情境中，包括描述性研究以及评估性研 
究。最后，抽样调查方法在政治竞选中的应用是非常成功 
的，从而极大地提高了自身的知名度。 

当然，调查研究的基础是抽样过程。如果离开了设计优 
良、执行有力的抽样过程，无论研究者提出的研究问题多么 
有趣、使用的研究方法多么高端，都不能弥补这一缺憾。但 
即使这样.有人可能会觉得抽样仅仅是一个技术问题，只要 
统计学家懂就够了^我并不这么认为。负责抽样的统计学 
家对很多项目而言是至关重要的，使用抽样调查数据的研究 
者必须有足够的抽样调查的理论基础。 
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加尔顿教授的著作对抽样过程的介绍深浅适中。显然， 
本书并不是为统计学家而写的。事实上，本书对于那些只有 
部分统计学知识的研究者而言都是通俗易懂的。在书中，作 
者对所有的概念都进行了仔细解释，从而为读者理解调查设 
计打下了很好的基础。本书的一个主要特点在于，它对这一 
方法的实际应用进行了诸多介绍，比如抽样框和无应答的部 
分，而研究者在实际中常常会遇到无应答的问题。 

本书很好地涵盖了抽样理论与相应实例，因此我认为， 
加尔顿教授的这一著作无论对于抽样调查的初学者还是有 
一定基础的读者来说，都是宝贵的参考资料。 

理查德 • G . 涅米 
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目前.抽样调查 (sample surveys ：^ 为一种提供统计数据 
的方式，已经在众多领域被研究者和管理者们广泛应用。这 
些领域包括社会学、社会心理学、人口学、政治学、经济学、教 
育学以及公共健康等领域.人们使用抽样调查来发展、检验 
以及提炼他们的研究假设。与此同时，中央政府也同样依赖 
这些调查来获得关于民众的信息，包括就业和失业、收人和 
支出、住房条件、教育、营养、健康、出行方式，等等。他们也 
会对例如制造商、零售商、农场、学校以及医院等机构进行调 
查。另外，地方政府也会使用调查来帮助他们的规划。市场 
调查员也使用柚样调查来确定目标市场，了解商品是如何在 
实际中被使用的以及消费者的反响。意见调查则追踪政治 
家或政党的受欢迎程度，同时度量公众在众多社会议题上的 
看法。 

虽然抽样调查现在有非常广泛的应用.但令人惊讶的是 
它的历史非常短。这一历史基本发生在20世纪之内.而调 
查方法的改进也大多出现在20世纪30年代之后。在这一 
世纪中.调查方法的所有方面都有了可观的改进.抽样方法 
方面的进步尤甚.而后者也正是本书的主题。20世纪之初， 
统计学家就仅仅分析总体的一部分是否足够进行了争论.因 
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为这在原理上是可行的 （ O’Muircheartaigh and Wong ， 
1981)。由于时间抽样 （time sampling ) 已经被广泛接受，因此 
人们已经能够使用众多抽样方法在不同情境下来保证调查 
的有效性和实用性。 

调查的设计包含了众多互相关联的决策，比如收集数据 
的方式(面对面的访问、电话访问或自我完成的形式）、提问 
框架、数据处理方法以及样本设计 (Moser and Kalton , 1971； 
Warwick and Lininger , 1975)„ 尽管这本书仅涉及样本的设 
计,但它同时也会考虑到样本设计需要的是整个抽样调查的 
有机整体。特别是数据搜集过程中包含的经济学对样本设 
计的选择具有重要影响。 

调查设计的第一步就是决定研究的总体 （ population ) 0 
这里，“总体”这一术语的意思是被研究的元素 （ element ) 的全 
体，而元素则是研究的 单元。 具体而言，元素可以是个人， 
也可以是家庭、农场、学校或其他单位。根据调查的对象. 
需要精确和仔细地定义“总体”的概念，因为研究的结果取 
决于我们使用的定义。比如，考虑一个在城市中进行的调 
查.其目标是检验一个对新引人的巴士系统的支持程度。 
我们是否应将调查设定到在这一城市里居住的个人层面？ 
访问对象的最低年龄是什么？是否应当调查那些没有城 
市选举权的人？在城市中暂居的访客是否应当被排除在 
外？如果是的话，这一群体该如何定义？在我们定义总体 
时，会面临很多类似的问题，而这一工作并不像看起来那 
么简单。 

在开始阶段，定义一个满足调查目标的理想总体是有帮 
助的：目标总体 (target population )。 这一定义现在常常被修 
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正为调查总体 (survey population ) ，从而将实际的限制纳人考 
虑范围内。比如，美国很多全国性的调查的理想状态是包含 
驻扎在海外的军人、居住在夏威夷或者阿拉斯加的人们，以 
及在医院、旅馆、监狱、军营和其他机构的人们。然而，对这 
些人们进行调查访问无疑会面临很多问题，在现实中这些人 
往往会被排除在调查总体之外。因此，从理想目标总体开始 
的优势在于，人们可以清楚地确定需要排除哪些人，从而使 
人们可以评估这些限制条件的范围和后果。 

一旦定义了总体，我们就可以从中确定样本。一个最直 
接的方法就是将总体中的所有元素都包括进来，但是这通常 
并不合适。只从总体中的部分搜集信息的成本较低，同时如 
果可以保证我们之后的估计量足够准确的话，抽样明显是更 
加经济的做法。这样的做法也可以使这一过程更加迅速，人 
们也可以从中得到及时的 报告。 另外,通过仅关注总体中的 
一部分信息，数据搜集的质量会高于收集总体全部的做法。 
因此.抽样调查实际上能够提供更加准确的结果。因为这些 
理由，除非总体本身非常小，抽样调查几乎总是更常被使用 
的方法。 

在样本设计时，人们往往考虑如何选择总体的部分来对 
其进行调查。一个基本的区分就是要看抽样是不是通过概 
率机制 （probability mechanism )实现的。对于一个概率样 
本，每一个元素都有一个已知的、非零的被抽中的概率。因 
此，人们可以避免选择偏差，并且通过统计理论来推导出抽 
样估计量 （survey estimator ) 的性质。非概率抽样则包含了 
多样的过程，包括使用志愿者以及特意选择某些具有“代表 
性”的元素作为样本。所有非概率抽样的弱点在于其主观 
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性，从而排除了人们为此发展出一个相应的理论框架的可能 
性。一个专家选择的志愿者的样本_者一个代表性样本仅 
仅能够被主观地评估，因而不能用不依赖这些主观性的统计 
方法来评判。考虑到非概率抽样的这一弱点，本书将仅仅考 
虑概率抽样。然而，我们在第13章中仍然会对非概率抽样 
作出一些讨论。 

任何形式的概率抽样的基础都是抽样框 （sampling 
frame ) ，从中人们可以决定抽取哪些元素。在一个简单的情 
形下，当包含样本中的所有元素的列表存在时，这一列表就 
是抽样框。当我们没有列表时，抽样框就相当于一个确认总 
体中的元素的等价程序。地区抽样 (area sampling ) 就是一个 
相应的例子。在这一技术下，总体中的每一个元素都与一个 
特定的地理位置相关联（比如，居民或者住户总有他们的居 
住 地址； 当居住地多于一个地址时，我们考虑其主要住址）。 
因此，当人们绘出一个地区的样本之后，这些被选择的地区 
中的所有元素或者是部分元素都会被纳人样本（见第12 
章）。抽样框的一般组织和它包含的元素的信息对于样本 
设计选择的影响常常很大。抽样框中的缺陷，比如如果不 
能将所有元素包含到其抽样总体中，可能就会对样本的选 
取有负面影响。我们会在第8章中对抽样框及其细节做更 
细致的探讨。 

现在，人们已经发展出各种各样的概率抽样技术，它们 
能够提供有效的实际样本设计。其中.被广泛使用的是系统 
抽样 （systematic sampling) 、分层抽样 （ stratification) 、多阶段 
抽样 ( multistage) 、 群 （ cluster) ，以及按规模大小成比例的概 
率抽样 （probability proportional to size sampling) „ 以下内容 
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将会对这些方法分别进行探讨和解释，但是实际上它们常常 
被联合使用于一些复杂的样本设计中。第12章中的两个例 
子会说明这一点。下面，我们将从比较简单的、适合从比较 
紧凑的总体中抽取小样本的抽样方法开始，然后介绍适合从 
更大的、更分散的总体中抽样的复杂方法。 



简单随机抽样 
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简单随机抽样 （Simple Random Sampling, SRS) 给人们 
提供了一个讨论概率抽样方法的自然的出发点，可并不是因 
为它的广泛使用(实际上确实是并不广泛），而是因为它是最 
简单的方法，并且是更加复杂的方法的基础。在定义简单随 
机抽样方法之前，我们先将样本量记为 n ，将总体中的所有元 
素的个数记为 N 。 正式定义的简单随机抽样是使得任何包 
含 n 个元素的集合在总体的 JV 个元素中具有相同抽取概率 
的抽样方法。这一定义表明，总体中的任一元素都有相同的 
概率被抽中，但上面的定义比这一描述更严格。下面我们将 
会看到，更加复杂的抽样方法也往往是等概率抽样 （Equal 
Probability Selection Methods, EPSEM) ，但这些方法下的被 
抽取元素的集合的联合概率并不像简单随机抽样一样是相 
等的。 

下面，我们会讨论简单随机抽样的一个特定的应用。假 
设人们将在一所高中进行调查以了解学生们的业余爱好。 
我们有这所学校的1 872名学生的名单，其中学生按照他们 
的身份码排列。这些身份码的范围是从⑻01到1917,其中 
的一些间断是由于一些学生离开了学校。假设我们考虑使 
用简单随机抽样抽取一个《 =250的样本（在第11章中•我 
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们会讨论 W 的选取）。 

一个按照简单随机抽样抽取的方法是使用抽奖方法 
(lottery method ) 。每个学生的名字或者其身份码被写到 
1 872个相同的圆片上。这些圆片完全打散放到一个罐子 
里，人们从中随机选择250个。如果这些程序得到完美的执 
行，那么这250个圆片就会确定简单随机抽样抽取的250个 
学生。尽管这一过程看着简单，但是做起来却很繁杂，因为 
它必须依赖于人们将这些圆片完全打散，从而保证随后的抽 
取是随机的。 

另一个使用简单随机抽样抽取的方法是通过随机数表 
(table of random numbers )。 这些表格是人们精心创建并检 
验的，以保证从长期来看每一数位、数位的每一组合等都是 
以相同的频率出现的。在表 2.1 中•我们给出了一个肯德尔 
和史密斯 （Kendall and Smith , 1939) 创建的随机数表的一 
部分。 


表 2.1 随机抽样数 


67 

28 

96 

25 

68 

36 

24 

72 

03 

85 

49 

24 

85 

86 

94 

78 

32 

59 

51 

82 

86 

43 

73 

84 

40 

10 

60 

09 

05 

88 

78 

44 

63 

13 

58 

25 

94 

55 

89 

48 

90 

80 

77 

80 

26 

89 

87 

44 

11 

63 

77 

77 

23 

20 

33 

62 

62 

19 

29 

03 


资料来源： Kendall. M.G. and B.B.Smith ，Tables of Random Sampling 
Numbers. Copyright © 1939 by Cambridge University Press. Reprinted by 
Permission. 


由于每个学生的身份码中都包含四位数字，我们需要选 
择包含四位数字的随机数。在实际运用中，人们应当从表中 
的任意一处开始选择.但这里为了简单起见，我们将从左上 
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角开始。接着，我们先从首四列开始向下选取，然后是后面 
四列向下选取，依次进行。落在学生身份码范围之外的数字 
(0001 — 1917) 或者在此范围内但查无此人的数字会被忽略。 
表 2.1 中的第一组的前四个四位数字（6728, 8586, 4010, 
9455) 没有产生任何可行的学生码，因此选择的第一个学生 
号码是 1163( 并且此学生仍在学校）。继续看表格，另外两名 
被选中的学生是0588和0385。显然，根据这一表格选取250 
名学生是一项索然无味的工作，这要求人们抽取出大量的随 
机数，而其中的大多数却并不能产生有效的学生码。 

为了避免这些随机数的浪费，我们可以为每个学生指定 
多于一个的随机数，但前提是每个学生对应的随机数数量是 
相等的。这里，每个学生都可以与五个四位的随机数相联 
系。对于学生0001而言，一个简单的方法是让他与2001, 
4001, 6001 和8001 相连； 学生0002与2002, 4002, 6002, 
8002 相连； 对于学生1917,则让他与3917, 5917, 7917和 
9917相连。然后，我们再次从表 2.1 的左上角开始，被选择 
的学生是6728 =学生0728, 8586 =学生0586, 4010 =学生 
0010, 9455=学生 1455, 1163 =学生 1163,等等。 

使用随机数表来抽取样本可能会使得抽取同一元素的 
次数超过一次。而对于上面的抽彩方法而言，并不存在这一 
可能性，因为当一个学生的圆片被抽到时，我们并不将其放 
回罐子中去。然而，如果我们在下一次抽取前将圆片放回罐 
子中，这种可能性仍然会存在。如果抽样是无放回地进行 
的，样本必须要包含„个不同的元素，但是对于有替换的抽 
样，样本量为„的抽样可能包含小于„个不同元素。当抽样 
过程是被有放回地进行的•抽样方法被称为无限制随机抽样 
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(unrestricted random sampling ) 或者有放回的简单随机抽样 
(simple random sampling with replacement ) „ 当抽样是无放 
回地进行的，这种方法则是无放回的随机抽样 （simple 
random sampling without replacement ) 或者简称为简单随机 
抽样。使用随机数表进行的简单随机抽样需要忽略已经在 
样本中的重复抽中元素。与有放回的抽样相比，无放回的抽 
样能够给出更加精确的估计量 （ estimator )， 因此我们主要关 
注无放回的抽样方法。 

在使用简单随机抽样选取了 250名学生之后，假设我们 
现在已经收集完数据，并且我们对所有抽中的学生都给予了 
回应(无应答的问题我们会在第9章中介绍）。下一步，我们 
会通过总结个人的回应来对总体的某些特征进行推断，比 
如，每日平均看电视的时间和正在阅读小说的学生比例。此 
时，我们会再次介绍一些概念。依据抽样调查文献中的规 
范，我们用大写字母表示总体值和参数，用小写字母表示样 
本值和估计量。因此， y ,， …， 表示的是变量: y (比 
如，看电视的小时数）对总体中 N 个元素的取值，而: y ,， 
3^2> —• y „ 表示的是样本中 w 个元素的取值。一般而言，变 
量 j 对于总体中第；个元素的值是 y ,(;= i ， 2 ,…，] v ), 而 
其对于样本中第 f 个元素的取值则是 3；, U =1， 2, …，； 7)。 
总体的均值由如下公式 给出： 

Y./N 

i = 1 

样本的均值 则是： 

n 

y =2 y-Jn 
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在抽样调查中^变量总体的方差一般被定 义为： 

N _ 

S 2 = 2 (yi-Y)V(N-l) 

i=\ 

而样本的方差 则是： 

s 2 = X] (：Vi — 夕 )V( W —n 

«=i 

然而，有些时候，总体方差被定义为其分母为 N 而不是 
N — 1， 具体 如下： 


a 2 = E(Yi-y)7N 

i = l 

(比如， a 2 =(N-l)S 2 /N)„ 

假设我们希望使用调查搜集到的数据来估计该学校所 
有学生平均每天看电视的时间 f。 这时，我们就会考虑 S 是 
不是尹的一个足够好的估计量。由于亏是未知的，这一问题 
对于从一个特定样本得出的5而言也很难回答。然而，我们 
可以通过重复抽样得到的均值的性质来获得一些更可靠的 
估计。我们注意到，估计 (estimate) 指的是一个特定的值，然 
而估计量则是为了得到估计而使用的程序或者规则。在上 
面的例子中，我们可以通过均值的估计量 i 来计 

算得到一个看电视的平均时间估计值 2.2 小时。统计理论提 
供的是评价估计量的方法，而非估计的方法。下面的论述会 
简要回顾统计推断理论中关于简单随机抽样的 部分; 对于统 
计推断的一个更加充分的讨论，请读者参考例如布莱洛克 
(Blalock, 1972) 等其他研究者的统计学著作。 

在理论上，样本估计量的统计性质是建立在重复无限次 
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抽样过程的基础之上的。在目前的例子中，假设我们重复无 
限次从1 872名学生中抽取250人的简单随机抽样过程，并 
每次得到其样本均值（当然，每次抽取新的样本之前需要将 
前一次抽取的样本放回总体）。我们得到的样本均值的集合 
则会有一个分布，或称均值的抽样分布 （ sampling distribu ¬ 
tion ) 0 如果样本量并不是过于小了- ■般而言10或20 

就够了-统计理论证明这一分布近似于正态分布 （normal 

distribution ) ,并且这一分布的均值为总体均值？。如果无限 
次重复抽取得到的样本估计的均值与总体均值这一参数相 
等，那么这一估计量则是总体参数的无偏 （ unbiased ) 估计量。 
因此，在简单随机抽样的情形下，5；是 f 的无偏估计量。 

尽管 S 的抽样分布以 f 为中心，其任何一个具体的值可 
能会与 f 不同。因此，我们需要一个描述不同估计值与 y 接 
近程度的度量。一个常用的描述这一变异 （ variability ) 程度 
的度量是标准偏差 （standard deviation ) ，定义为方差的平方 
根。在这种情形下，标准偏差是样本均值分布的标准偏差。 
为了避免它与每一元素的值的标准误差相混淆.抽样分布的 
标准偏差一般被称为标准误差 （standard errors )。 我们将一 
个由 SRS 得到的样本均值标记为3；。（其下标0表示简单随 
机抽样），其标准误为 SE ( y 0 ), 以及标准误的平方，或者3；。的 
方差为 V ( h )。 为了方便.大多数抽样误差的公式会写成方 
差的函数。一个样本量为 《 WSRS 的样本均值的方差 如下: 

V(y 0 )=^^ [2.1] 

iV — 1 n 


或者等 价的: 
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V ( y 0 ) = 


N — n \ 
N ) 


S 2 

—=( 1 -/) 
n 


n 


[ 2 . 2 ] 


其中/ = n / JV 为抽样的比率。 

这些公式表明 V (^) 依赖于三个 因素： 第一， （] V _77)/ 
( N —1) 或者 （1 一/)，就是有限总体修正 （Finite Population 
Correction , FPC ) ——当 / V 非常大的时候，这两项的差距就 
非常 小了; 第二，样本量 n ; 第三, S 2 或者 a 2 , 也即总体中变量 
y 的方差。其中， FPC 表明调查的总体规模是有 限的； 而标 
准统计理论假设总体规模是无限的，从而人们可以进行无放 
回重复抽样。当总体的大小无限，或者进行有放回抽样时， 
就不会存在 FPC 这一项，从而公式 2.1 就可以简写为 V ( y 0 ) = 
a 2 /« 了。因此 ， FPC 一项表示了无放回抽样相比于有放回抽 
样的益处。对于一个样本量大于2的样本， FPC 是小于1 
的，说明从简单随机抽样得到的 S 比从一个具有相同样本量 
的无限制样本中得到的5更加精确，或者有更小的方差。在 
很多实际情况下，如果总体非常庞大，即使样本很大，抽样 
的比率也还是很小的。在这种情况下，有放回和无放回抽 
样的区别就不再重要了，因为即使人们有放回的抽样，抽取 
某一特定元素多于两次的概率也很小。这一点能够用 FPC 
表示出来。如果抽样比率 （/) 为1/10, FPC 为 0.9, 那么其 
对标准误差的影响为 n /1 — / = 0.95； 如果/= 1/20, 1一/= 
0.95 从而/1^7=0.97。这些结果表明如果抽样比率是很 
小的， FPC 会非常接近于1，因此对于标准误差的影响很小。 
当抽样比率比1/20甚至1/10小的时候， FPC 项一般都可以 
被忽略(当做1)。 

第二个影响 V ( h ) 的因素是样本量《。这一点非常直 
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观，因为样本量越大， V ( t ) 越小。而相对不那么直观的一点 
是，对于庞大的总体，样本量在决定抽样的准确度上比抽样 
比率更能起到决定性的作用。举个例子，从一个具有20亿 
人的国家中抽取2 000人得到的结果，与从一个4万人的小 
城市中抽取2 000人的结果一样精确（假设两个总体的方差 
是相等的）。因此，对于越庞大的总体，抽样的益处就越明 
显。诚然，对于非常小的总体，抽样的好处可能并不大，即使 
FPC 此时会发挥重要的作用。比如，在一个仅有200名学生 
的学校中调查全部人可能比抽取其中的175人更加方便。 

第三个影响 V (?。） 的因素是总体中 j 的方差， S 2 或者 
( T 2 。 显然地.如果所有的学生看电视的量是相近的，那么任 
何样本的均值都会接近于总体均值。然而.如果他们在看电 
视的习惯上有很大差别，那么任意一个样本均值都可能会与 
总体均值的差异非常大。注意， S 2 或者/都是总体 参数； 因 
此，在实际中我们并不知道它们的真实值。为了估计 V ( h ), 
我们需要准确估计总体方差。使用 S 2 表示的公式 2.2 的好 

处在于，我们熟悉的样本估计量 s 2 = V (3，,.— 1) 

i=l 

是 S 2 的无偏估计量（但并不是 < r 2 的无偏估计量）。因此, 
V ( 歹。 ） 和 SE ( h ) 可以简单通过下面的公式来 估计： 

v ( y 0 ) = (1 —/) s 2 /« [2.3] 

以及 

se ( y „) = \/(1 — f ) s 2 /ji [2.4] 

其中小写的 v 和 se 表示样本的估计量。 

在已经估计了标准误差之后，我们可以计算总体均值的 
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置信区间 （confidence interval )。 比如，对于一个大样本，其对 
于 Y 的95%置信区间是夕。士 1.96 s e (%)， 其中 1.96 是从标 
准正态分布的表中得到的(95%的标准正态分布都落人围绕 
分布均值的 1.96 个标准偏差中）。举个例子，假设250个学 
生每天平均看电视的时间为％ =2.192 小时，其方差为 s 2 = 
1.008,那么 Y 的95%置信区间为： 

2 . 192 ± 1 . 967 ( 1 -^)^= 2 . 192 ± 0.116 

就是说，我们对于区间 2.076 到 2.308 包含了总体均值 
有95%的把握。 

除了均值，人们关心的另一个参数是总体中有某一特征 
的人的比率(或百分比），比如目前阅读小>说的学生的比例。 
比率的结果可以简单从均值得到，因为比率就是均值的一种 
特殊形式。为了说明这一点，我们假设当第 （ 个元素有这一 
特征的时候 I =1 ，否则=0。因此 ，歹 = E y .'/ n 就是总 
体中具有这一特征的人的比例 P ， 从而样本均值 S 就是样本 
比例 P 。 因此，一般而言，样本均值的性质也适用于比率。在 
我们目前讨论的 SRS 例子中，由于 A 是尹的无偏估计，因此 
P 0 也是 P 的无偏 估计。 然而，由于变量 J 的取值仅仅是0和 
1，其 S 2 和 < J 2 的表达式可以被简化为 NPQ(JV — 1) 以及 
wpoq^/h — 1)，其中 Q=l — P ，^5 = 1 — p 。。 使用这些表达 
式，我们有： 


V ( p „)=( l -/) 


NPQ 

( N - l)n 


[2.5] 


以及 
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v ( p 0 ) =(1 —/) (=。 二) [2.6] 

如果可以忽略 FPC , 或者《非常大， v ( p 。） 就可以退化到 
Poqo /« 的形式。这些公式也适用于百分比，只需修改为 Q = 
100 — P 以及 q 。 = 100 _ p 0 。 

举个例子，假设样本中250个学生中的165人阅读小 
说.比如 P » =66.0%。那么 P 的95%置信区间 就是： 

66 . 0 士 = 66 - 0 士 5 . 5% 

即，我们有95%的把握认为区间60.5%到71.5%包含了 
总体的学生读书的百分比。 

先前的讨论回顾了根据 SRS 方法估计总体均值或者比 
率的步骤，以及计算相应的置信区间的方法。这对于从大样 
本来进行统计推断而言是标准的一般方法，其中唯一的区别 
在于 FPC —项上。这一方法也可以被用到估计其他总体参 
数的过程中。 
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在前面的一章中，我们提到了使用随机数表来抽取一个 
包含250个学生的随机样本。这虽然是可行的，然而实现的 
过程却不免繁冗。另外，如果总体非常庞大，或者样本量增 
加，抑或所有的学生并非以身份码来识别的话，抽样的过程 
会更加耗费时间。系统抽样作为一种能够在很大程度上简 
化抽样过程的方法，近年来被广泛应用。系统抽样非常容 
易，因为它仅仅抽取一个随机起点后的每第 々个 元素。 

一个很简单的例子是，假设我们从2 000个学生的学校 
中抽取一个有250人的样本。抽样比率为250/2 000,或者 
1/8。通过在1到8中随机选取一个数字，我们可以决定样 
本中的第一个元素，之后我们每隔8个学生抽取一人。如果 
随机数是5,那么我们抽取的学生则是名单上的第五个、第十 
三个、第二十一个学生，以此类推。 

在应用上一章节的例子时，系统抽样的过程比上文描述 
的要复杂一些，因为此时的抽样比率是250/1 872或者 
1/7.488。因此，此时抽样间距 （sampling interval )7.488 并非 
一个整数。有些时候，这个问题可以通过将这一数字四舍五 
人来处理，但相应的样本量也会有所变化。在这一例子中， 
7人中抽1人将会得到一个样本容量为267或268的样本， 
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然而8人中抽一人则会得到容量为234的样本。如果人们 
不能够接受四舍五人的处理方法带来的样本量的变异性，我 
们还可以使用其他方法。一个方法是只保留间距的整数位 
(如7人中抽1人），然后从1 872名学生中随意选取一人开 
始，直到抽取到了我们希望的样本量（比如250人）。使用这 
一方法时，学生名单实际上被当做是环形的，所以名单中的 
最后一人之后接着是名单的第一个人。第二个方案是使用 
比率间隔 (fractional interval ) ，舍去小数位来决定抽样起点。 
在前面的例子中，人们抽取一个从1 000到7 488之间的四位 
随机数.比如3654,作为柚样的起点。接下来.将这一数字的 
小数点前移三位，得到 3.654, 然后从第三名学生开始抽取。 
将 3.654 重复加上7.488,我们会得到 11.142、18.630、 26.118 
等。这一序列就会产生第十一、第十八、第二十六名学生，以 
此类推。因此，被选择的学生之间的间隔有时是7,有时 
是8。 

一个识别系统抽样样本中的学生的方法是找出名单中 
的第三人、第十一人、第十八人，等等。另一个方法就是利用 
学生身份码。使用这种方法，人们可以将抽样间距累加，直 
到其超过1917,也即身份码的最大值。在这一方法中，我们 
依然先舍去小数位来决定抽样的 开始; 但如果被选择的号码 
并不对应一位学生，这一号码就不会被选取。期望的样本量 
仍然是250,但是实现的样本量则可能与250不同，因为其中 
可能出现号码与学生不对应的状况。 

正如简单随机抽样一样，系统抽样给予总体中每一元素 
相同的抽取概率。比如，它是一个等概率抽样的设计。然 
而，与简单随机抽样不同的是，系统抽样中元素的不同集合 
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被抽取的概率并不相等。比如，在前面从8人中抽1人的例 
子中，元素1和2同时被抽取的概率为0,而元素1和9同时 
被抽取的概率是1/8,因为如果元素1被抽取，那么元素9必 
然被抽取。系统抽样的等概率抽样性质表明，样本均值是对 
总体均值的合理估计量。然而，由于系统抽样中不同元素的 
集合被抽取的概率并不相等， SRS 的标准误差公式并不能被 
直接应用到系统抽样中。 

在从8人中抽1人的例子中，很容易确定均值或者比率 
的抽样分 布：因 为只有8个不同的样本，每一个样本都有相 
同的可能性岀现，抽样分布就是八个样本的均值或者比率， 
每一个发生的概率为1/8。系统抽样的一个局限在于，除非 
我们对名单的顺序作出假设，被抽取的元素值的变异程度并 
不能用来估计抽样分布的变异性的基础。为了说明这一点， 
我们再次考虑所有学生中阅读小说的学生所占比例这一问 
题。假设2 000名学生中有1 500个学生在阅读小说.而学校 
的学生名单的排列如果正好是按照每六个阅读小说的人之 
后是两位不阅读的学生的话，那么如果我们从1到6中随机 
选择起始点的话，抽取的样本就是包括全部阅读小说的学生 
(p = 100%) ; 然而如果我们从7和8中随机选择起始点时， 
则不会抽取到任何一个阅读小说的学生 （P = 0) 。因此，样本 
的估计量是非常不精确的，其真实的标准差为43.3%。而每 
一样本的内部的变异性则为0,因此对标准误差的大小没有 
任何指示作用。 

为了对系统抽样下的估计量的标准误差作出估计，我们 
需要对总体做一些假设。有时候，我们可以假设名单在我们 
关心的变量上是接近随机的，那么随后抽到的样本就可以被 
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当做简单随机样本。按照字母顺序排列的名单一般可以被 
这样处理。有时候，名单可能是按照分组排序的（比如，不同 
年级的学生），而在不同年级中，我们关心的变量的变异程度 
可能有所不同。这时，系统抽样得到的样本就可以被当做分 
层样本 (stratified sample ， 参见第4章）。抽样调查者常常会 
对名单中的顺序进行调整，然后进行抽取，从而得到按比率 
的分层抽样 （proportionate stratification ) 结果。 

正如上面所说的，当名单在我们关心的变量上具有一定 
的周期性，而抽样间距是这一周期长度的倍数时，系统抽样 
的效果会很差。但是，如果抽样的间距并不是这一周期长度 
的倍数，系统抽样的效果则尚可。为说明这一点，读者可以 
考虑上面学生阅读比率的例子中从7人中抽1人的情形。 
虽然抽样者需要警觉在周期性名单中系统抽样的潜在危险， 
这样的名单在实际中是很难碰到的，而一旦出现这种情形， 
也很容易被识别出来。在不过多担心名单序列的周期性的 
情况下，系统抽样可以被广泛应用。 
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一个经常会碰到的抽样调查的特征是总体中的一些元 
素信息是已知的。比如.在选择美国一个地区性样本的时 
候，该地区的地理位置的信息是已知的，比如它是否为内陆 
城市、郊区或者农村地区，同时人口普查的数据也可以提供 
关于这一地区的其他有价值信息-一比如，之前人口普查 
中该地区的人口、人口变动率、在制造业中就业的人口比 
率，以及总人口中非白人的比率。抽样调查的设计阶段考 
虑到这些补充信息不仅能够提高样本设计质量，也可以在 
分析阶段来提高样本估计量的质量，或者两者兼有。这一 
部分会讨论利用补充信息.通过分层抽样技术来提高样本 
设计的质量。 

分层抽样本质上是根据额外信息来将总体分为子总体 
( subpopulation ) 或者层 （ strata )， 然后在每一层中分别进行抽 
样。分层抽样的好处在于，每一层中抽取的样本量是由抽样 
者控制的，而非由抽样过程随意决定的。通常，分层抽样得 
到的样本是从对应层的总体中按比例抽 取的； 换句话说，人 
们使用统一的抽样比率 (sampling fraction )。 因此，这通常被 
称为按比例分层 （proportionate stratification )。 然而，将总体 
划分为不同的层时并不需要按比例进行，非比例分层 （ dis - 
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proportionate stratification ) 同样也是可能的。在这一部分 
中.我们仅仅考虑层内使用的简单随机抽样，但是在之后我 
们会说明，其他抽样方法也可以被使用。 

为了对分层进行处理.我们需要拓展前面引人的概念。 
具体而言，我们加人一个下角标 h 来表示对应的层 h 。 因此， 
N „ 就是层 h 的总体大小，而叫就是在 h 层取的样本大小， 
N = 以及《 = Eh 则是全部总体以及样本的 大小； 
/,,= w h / N h 是在层 h 中的抽样比率;和 A 则是层 h 中的 
总体均值和样本 均值; 式和 s 2 h 则是层 h 中总体元素的方差 
以及样本元素的方差。这里，我们引入一个新的符号 W ,,= 
NJN , 即层 h 在总体中所占的比重，并且 2] W h = l 。 

给定在每一层内进行的是简单随机抽样后，先前的结果 
就可以被应用到每一层中，那么对于每一个 h ， 殳是么的无 
偏估计，它们的方差和标准误差可以根据公式 2.3 和公式 2.4 
估计得到„分层抽样引人的新的问题在于，如何将不同层的 
均值组合起来得到对全部总体均值 P 的估计量及如何来估 
计这个估计量的方差。对于前一个问题.我们可以将 P 表示 
为 E / v h n/N = X ； w h n 。 因此，对一个明显的？估计量 
就是用层样本均值扒代替未知的匕。因此，我们可以得到 
一个无偏估计量是 t S W h ji h ，其中 st 表示分层。 

如果我们在每一层中分别独立进行抽样 ， t = E Wi^k 
的方差就可以根据公式 4.1 给出： 

V(y sl ) = E w2 hV(y„) [4.1] 

在每一层中使用 SRS ， 公式 4.1 可以表 示为： 
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V ( y 5 ,) = 2] Wl ( l -/ K)^/wh [4.2] 

上式由将公式 2.2 替换 V (5； h ) 得到。对于 V ( ji s ,) 的一个估计 
量就是将4替换公式 4.2 中的 S 2 h : 

v ( y s ,) = 2 w h (1 — / h ) [4.3] 
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第1节 I 按比例分层 


上面的公式对于不同层的样本都是适用的。在按比例 
分层的情况下，比如人们使用一个统一的抽样比率 / h =/或 
# n h / N h = n / N , 这些公式可以被简化。按比例分层是一个 
等概率抽样设计，其中 h 可以被简化为简单样本 均值： 

2 2 w” 

h i 

其中九是层 h 中的第 i 个元素的 y 的值，这个总和是所有样本 
的元素相加得到的。此时，公式 4.2 中 t 的方差可以被简 化为： 

V ( y st ) =(1-/)2 W h ^/72 = (1 — f ) S 2 Jn [4.4] 

其中 si = 2 w 2 h ^ 是每一层方差的加权平均值。从而 
V ( L ) 可以由公式 4.5 估计： 

V ( y M )=( l - f ) X ； W h S 2 h / W [4.5] 

在此，人们可能会发现按比例分层样本均值的方差（公 
式 4.4) 与简单随机抽样的样本均值的方差公式(公式 2.2) 非 
常相似。仅有的差别在于，简单随机抽样中的总体元素的方 
差 S 2 被按比例分层抽样中的不同层的方差的加权平均值 S 2 „ 
替代。对于具有很大样本量 / V h 的情形，我们可以近似将方 
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差分 解为: 


s 2 =s 2 „+Ew h (h—y ) 2 

由于上式的最后一项是非负的(平方项之和），从而 s 2 大 
于等于泛。换句话说，按比例分层抽样的样本的精确度与具 
有相同样本容量的简单随机抽样差不多。给定总体的变异 
由于进行了按比例分层抽样，分层样本的均值的异质性越 
强，或者说在每一层内的元素的值更具一致性，就能得到比 
简单随机抽样更高的准确度。 

正如之前我们讨论过的，简单随机抽样可以作为比较其 
他抽样方法的一个基准。一个经常被使用的比较的度量是 
设计效应 (design effect ), 即复杂设计的抽样方法得到的估计 
量的方差与具有相同样本容量的简单随机抽样估计量的方 
差的比值。我们将估计量 z 的设计效应表 示为： U ( z ) = 
V ( z )/ V ( zo ), 因此按比例分层抽样的样本均值的设计效应为 
D 2 (3；)= 汊 / S 2 , 这一值在上面的近似下不超过1。有时标准 
误差的比，比方差的比更 合适; 设计效应的平方根可以表示为 
DU )。 对 z 的设计效应的样本估计用 d 2 U ) 表示。另一个定 
义设计效应的方法是比较非限制样本 （unrestricted sampling ) 
而非简单随机样本。这一方法的优点在于可以比较复杂抽样 
样本的方差与标准情况下的方差。然而，由于简单随机抽样 
的方差与非限制抽样的方差的差别仅在于 FPC 项 (1 一/)，而 
其一般可以被忽略.这两个定义设计效应的区别是很微小的。 

为了对按比例分层抽样进行说明，我们现在回到前面一 
章提到的例子。现在，我们假设学生名单被分为四个单独的 
名单，每一个对应一个年级（九年级、十年级、十一年级和十 
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二年级）。然后，我们按照年级进行分层 抽取。 表 4.1 的第二 
栏和第三栏给出了从每一年级的所有学生中抽取的人数和 
比重。第四栏给出了每一层中抽取的样本，其中统一的抽样 
比率为250/1 872,或者1/7.448。对于每天看电视的小时 
数，第五栏、第六栏和第七栏给出了其样本加总、样本均值以 
及每一层中样本的方差。第八栏和第九栏给岀了每一层抽 
取到的阅读小说的学生数和比例。 


表 4.1 高中学生的按比例分层抽样(虚拟数据) 


(1) 层 

(2) N h (3) W h 

(4) /2 h < 5 > 2- 

VW (6) y h 

(7) S 2 h (8) r h 

(9) p h 

九年级 

524 

0.28 

70 168 

2.40 

0.941 

35 

50% 

十年级 

487 

0.26 

65 169 

2.60 

1.088 

39 

60% 

十一年级 

449 

0.24 

60 123 

2.05 

0.804 

45 

75 % 

十二年级 

412 

0.22 

55_88 

1.60 

0.643 

44 

80% 

总计 

1 872 

1.00 

250 548 



163 



对于每天看电视的小时数，其样本均值可以通过 
计算。然而由于样本是按比例得到的，这一值也可 
以通过简单的样本均值算 出来： 


= 2 2 : Vh/h =548/250 = 2.192 

h i 

以相同的方式，样本中阅读小说的学生的比例可以用 
p sl =\00^] r h /n =100( 163/250) =65.2% 计算。 h 的方差 
可以根据公式 4.5 汁算 如下： 


v ( y ,,) = (l 


250 \ /0.88 Q 8\ 
1872/ V 250 ) 


= 0.003053 


并且)=0.0553。因此，对于 Y 的95%置信区间是 
^ 土 1.96 se ( y st ), 或者 2.08 到2.30。 
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p s ，的估计方差可以从公式 4.5 中得到，注意，忒= 
” hPhqh /( w h —1) 表示比例。从而得到： 


V ( p sl ) = (1 


250 
1 872 


)( 


2 160\ 
250"/ 


:7.486 


并且 se ( p st ) =2,736% o 

对 P 的一个95%置信区间因此可以是 p sl ± 1.96 se ( Psl ), 
或者为59.8%到70.6%。 

h 和 p st 的设计效应可以由 S 2 W / S 2 估计。对于 h ， S 2 近 
似为 1.008( 这里没有给岀计算 过程; 请参考 Cochran ， 1977： 

第5 All 节），从而 d 2 ( y st ) =0.87。换句话说，我们 

需要一个容量为 250/0.87=286 的简单随机抽样的样本才能 
达到相同的精确度。这一在精确度上的增加的来源是不同 
年级看电视时间明显的变异性。 

对于 h 而言， s 2 近似为2 278,从而 d 2 ( Psl ) =0.95。此 
时，使用分层抽样得到的精确度的增加比我们期望的要小， 
特别是当我们考虑到表 4.1 第九列中四个层的比重的明显差 
异时。然而，这一相对小的精确度增加是一个惯例，除非一 
些层具有非常高（比如高于90%)或者非常低（低于10%)的 
比重。 
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第2节 | 非比例分层 



由于按比例分层能够提供比较简单的估计量.同时保证 
其精度不低于简单随机抽样，这一方法被经常使用。然而， 
有时非比例分层对我们也是有帮助的。 

非比例分层的一个重要目的是，在给定的资源下实现样 
本估计量的精确度的最优化。为了达到这一目的的最优分 
配是使分层抽样中的抽样比率与该层中元素的标准偏差成 
正比，并且与每加人来自该层的一个元素所需要的成本的平 
方根成反比，比如 fh oc Sh / 其中 c h 是层 h 中每一样本 
元素的成本。正如人们可以预计的，这一结果表明更加具有 
异质性的层以及成本比较低的层应当以更高的比率被抽取。 
抽样成本常常并不随层而变化，从而最优的资源配置可以写 
为 f h oc S ^， 或被称做内曼配置 (Neyman allocatio )。 

实现最优配置的一个实际性难题在于人们缺乏对层中 
元素的方差和抽样成本的深人了解。但幸运的是，一般而 
言，一个合理的、相对精确的估计就够了，因为略微偏离最后 
配置导致的准确度的缺失不是很大。另一个困难在于抽样 
调查的多重目的性，因为对于某个变量的最优配置往往对另 
一个变量而言是相当糟糕的。与按比例分层不同，非比例分 
层的估计量的精确度可能会低于具有相同样本的简单随机 
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抽样的估计精度。 

非比例抽样的另一个用途在于对某一层分配足够的样 
本量，从而对这一层的估计的精确程度能够得以保证。通常 
人们不仅需要对总体的样本估计值，也需要一些子总体的样 
本估计值，或称做研究领域 (domains of study )。 当一个样本 
量较小的层代表一个研究领域时.比例分配可能会使得本层 
的样本量太小，从而不能产生具有足够精度的 估计； 对此的 
一个弥补方式是，在这一层中采取更高的抽样比率。 

然而，人们需要使用非比例抽样的另一个情形就是，该 
抽样调查的目的是为了在不同层的估计值之间进行比较，而 
不是将它们合并起来进行一个总体的估计。比如，高中调查 
的目的可能是比较不同年级看电视的小时数，而不是估计所 
有年级看电视的小时数。当我们仅有两个层的时候，为了估 
计两个层均值差别的估计量的最优配置 如下： 

二 s, / yc7 

如果层的方差与成本是相等的，最优配置可以近似简化 
为=七。需要注意的是，为了在不同层之间进行比较.虽 
然层的总体规模是不相关的，但它们在对全部总体的性质进 
行估计的时候很重要。当我们同时需要在层之间比较以及 
实现对全部总体估 i j - 的时候，层的规模上的较大差异可能导 
致样本分配的冲突。比如，如果层的方差以及成本都是相等 
的，第一层包含了 90%的总体而第二层仅有10%.那么使用 
500个元素的样本估计全部总体的均值的最优配置就是在第 
一层中抽取450人，在第二层中抽取50人。但是.如果我们 
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的最优配置是为了估计两个层均值之间的差别•那么应该在 
两个层之中分别抽取250人。当这种情形出现的时候，对于 
一个目标的最优配置可能对另一个目标而言有很大影响，但 
有些时候.人们可以使用一些折中的方法。 

为了给出一个非比例抽样的例子，我们重新回到前面的高 
中案例。表 4.2 的数据与表 4.1 对应，我们重新安排了第四栏的 
内容以使其符合非比例抽样。我们选择的分配是将250的样本 
尽量平均地在四个层之间划分，因为每一层可能被独立地选为 
研究的对象(假设层中的元素的方差与成本都是相等的)。 


表 4.2 高中学生的非比例分层抽样(虚拟数据) 


⑴层 

(2) N h 

(3) W h 

⑷ Wh 

⑸ 2 M 

(6) yu 

⑺球 

九年级 

524 

0.28 

63 

151.2 

2.40 

0.941 

十年级 

487 

0.26 

63 

163.8 

2.60 

1.088 

十一年级 

449 

0.24 

62 

127.1 

2.05 

0.804 

十二年级 

412 

0.22 

62 

99.2 

1.60 

0.643 

总计 

1 872 

1.00 

250 





整体而言，看电视时间的均值可以按照公式 h = 
E 计算出来，为: U 92, 与前面的值相等。在这个例子 

中，简单均值 2] yjn =2.165 并不是 P 的有效估 计量： 

h i 

在本样本中被过度代表的年级越高，得出的报告显示看电视 
的时间也越少，简单均值从而低估了 P 。 通过将总体中层的 
比例 W h 作为权重，加权均值能够修正样本的不均衡性。 
火 的方差，根据公式 4.3 的估计，为 v ( y 5l ) =0.003117,从而 
se ( h ) =0.0558。比较这一标准误与从按比例抽样得到的标 
准误(0.0553)，我们发现非比例抽样产生的对总体均值的估 
计量的精度更小。 
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第3节 | 层的选择 


标准分层需要满足两个条件 :第一 ，每层占总体的比例， 
也即 w h ，需要是已 知的； 第二，从每一层中分别抽取样本是 
可能的。如果这些条件得不到满足，则需要新的技术来处 
理，我们会在后面进行讨论(参见第10章关于事后分层以及 
第7章中两阶段抽样的内容）。但如果这些条件能够满足， 
我们处理不同的层时就有很大的灵活性。在这里仅需要注 
意的一个限制是，每一层中至少需要选取一个，否则试图得 
到计算总体均值的无偏估计量是不可能的。如果我们也希 
望从样本中得到对标准误的估计.每一层中必须至少选取 
两个。 

在实践中，人们常常有关于总体的可观信息，从而可以 
将其用到分层的过程中，进而为分层提供更多的灵活性。具 
体如何操作是由分层的目的决定的。为了获得整体估计量 
的高精度,我们选取的层需要尽可能地具有较强的内部同质 
性(对于我们关心的变量而言）。如果我们关心不同层对应 
的小的领域中的分别估计，那么每一个领域需要对应一个 
层——或者一组层——人们可以将这些层用较高的比率进 
行抽样来达到目标的样本量。有时，在一个层中使用不同的 
抽样方法可能是有帮助的。比如，在调查一个小城市及其周 
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边农村地区的人口时，人们可以考虑在城市层中使用系统抽 
样而在农村层中进行地区抽样。 

我们回到高中的例子来说明如何将不同的抽样方法结 
合起来。现在，我们假设除了年级以外，还会在分层中使用 
到以下 变量: 学生的性别、学业表现的总体成绩（被分为高、 
中、低三个层次）以及居住地点（被分为三类），每一个变量都 
被认为与学生的看电视量有关。对于居住地点而言，其原因 
是居住地对应了不同的住房，它能够作为一个家庭社会阶层 
的代理变量，从而与看电视量有关。在使用这些变量分层的 
时候，我们不需要一些客观规则。相反，不同层的设置可以 
以主观的方式进行，而这样做也不会使调查的估计量岀现偏 
差; 每一层内的按比例抽样可以防止选择偏差的出现。衡量 
层的设置是否成功的准则是其内部的同质性，而这显然影响 
到调査估计量的标准误。在这个例子中，性别可能在解释九 
年级和十年级看电视量的差别中并不重要.而在解释十一年 
级和十二年级的差别中非常重要。另外，几乎所有十一年级 
和十二年级的学生可能最终都具有同样的居住地，使得这一 
变量不是区分高年级学生的重要因素。考虑到这些问题，我 
们会这样分层 :首先 ，将学生按照年级 分层； 然后，在十一年 
级和十二年级内部，将学生按照学业表现分为三级别，然后 
再细分为男生和 女生； 在九年级和十年级内部，将学生按学 
业表现分为三个级别，然后按照居住地的三类进行细分。这 
一过程会产生30个层。如果有一些层中的样本量太小了 
(比如少于15个学生，这个数字能够保证按比例抽样的250 
个元素的样本中能够有两个选择），我们可以将其与相邻的 
层合并。 
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然而，在按比例将样本分为众多层的过程中，可能会出 
现一个问题，就是一些层需要的样本量可能很小而且零碎。 
比如.将要求的抽样比率 1/7.448 应用到只有19个高中生的 
层中，会产生一个仅有 2.54 个学生的样本。虽然将大样本量 
近似为其相邻的整数对抽样的可能性的影响仅是微乎其微 
的，但这对于小的样本量并不成立。一个解决这一问题的一 
般性方法是使用模糊 （ implicit ) 而不是精确 （ explicit ) 抽样的 
方法。模糊分层包含了将总体的元素按照层列举，然后在名 
单中整体使用系统抽样方法。按照这一方法，在具有19个 
学生的层中，取决于步骤开始时选择的随机数，可以得到2 
个或者3个学生。 
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抽样调査方法简介 


在大多数抽样问题中，总体可以被当做由一些元素的组 
构成的集合。一种抽样方法就是将这些组当做层，正如我们 
在上一节中介绍的。在这种情形下，人们从每一组中分别抽 
取样本。另一种抽样方法则可以将这些组作为群，在抽样调 
查中抽取其中的一部分。如果所抽取的群中的所有元素都 
被包含在样本中，这种方法就被叫做整群抽样 （cluster sam ¬ 
pling ) o 如果从每一个选取的群中抽取一些元素作为样本， 
这种方法就叫做两阶段抽样 （twostage sampling )。 人们会 
常常用到群的阶层 （ hierarchy ): 首先选取一些大的群，然后 
在所选的大的群中抽取一些小的群.如此进行直到最后的元 
素是从最后一阶段的群中抽取出来的。因此举个例子来说， 
为了调查一个国家的学生，人们可以首先选取一些学校，然 
后从选取的学校中抽取班级的样本.最后从所选的班级中抽 
取学生样本。这种方法一般被叫做多阶抽样 ( multistage 
sampling ) ， 尽管有时候也被叫做整群抽样。 

尽管层和群都是元素的分组，但是它们所服务的抽样目 
标是完全不一样的。由于在样本里完全代表层，如果层中的 
同质性(对于所关注的变量而言）比较强的话，这一方法具有 
优势。然而对于抽取的群而言，抽取的部分必须能够代表没 
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有被抽取的 部分; 而当每一个群中的元素的异质性（对于所 
关注的变量而言）比较强的话.这一方法比较有优势。按比 
例分层抽样一般可以实现比较高的精度。然而，除非在一些 
特殊情况下，相比于具有相同样本量的简单随机抽样，整群 
抽样则会损失一些精度。人们使用整群抽样，是因为这一方 
法无论在抽样还是在搜集数据时都比较经济。但是，如果使 
用整群抽样得到的好处无法弥补精度上的损失，那么使用整 
群抽样就是不合适的。 

在这一节中，为了简单起见，我们设定一个不那么现实 
的假设 :所有 的群都具有相同的规模大小，也即 B (下一节会 
讨论不等规模的群）。从整体中的所有 A 个群中，人们用简 
单随机抽样抽取到了 £，并且所选的群中列举了所有元素(注 
意: 只要我们在文中使用了带下划线的 a ，就表示它被用做一 
个数学符号而不是文字）。样本量从而是抽样比率 
% j '= nlN = aBIAB = a / A 。 在总体中，令 h 表示群 a 中的 
元素令 

表示群 a 的均值，并且令 

a fl a 

为总体均值。在样本中，对应的量表 示为： 

B 

夕 。 = 


以及 
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a B a 

= 2 = ^yja 

a p a 

在群大小相等的情形下，总体均值是 A 个群的均值的简 
单平均，而样本均值是£个抽取的群的均值的简单平均。因 
此，群的简单随机抽样可以被当做从 A 个均值的总体中抽取 
a 个均值。因此，我们立即可以得到孓 是孓的 无偏估计量， 
并且其方差可以从公式 2.2 得到 如下： 

心卜卜 i )¥ [5 . 1] 

其中 

S' = SCY a -Y)V(A-l) 

a 

为群均值的方差。另外我们也可以 得到： 

2 

v(y c ) = (l — [5.2] 

是 V (^,) 的一个无偏估计量，其中 

s 2 u = 2 (y a — 夕 ) 2 /(“ 一 1 ) 

a 

将 ) 和从一个样本量为的简单随机抽样中 
的均值的方差进行比较，我们得到孓的设计效 应为： 


D 2 (y.) 


Si/a _BSl 
S 2 /aB 


的大小取决于与 S 2 的比值，而这一比值则取 
决于群的选取。比如，假设总体中群的个数 A 比较大，人们 
从中随机抽取群，那么则是简单随机抽样中 B 个元素的均 
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值的方差，可以近似表示为 S 7 B 。 在这些前提下 ， U ( h )= 1。 
但如果人们选取的群具有更高的内部同质性.而非像随机选 
取的那样，那么群的均值就会相应具有更强的异 质性； 从而 
玫将比 SVB 大，因此大于1。 

另一个有用的表示群样本的均值的设计效应的方 法是： 

tyty ,) H -( B - l ) f ) [5.3] 

其中 P 是层内的相关系数.衡量的是群内部的同质性程 
度 ( Kish , 1965:第 5.4 节）。在一个较大的总体中，如果群是 
随机形成的.那么 P 近似于0;因此 ！>"( 丈 ） =1。^为负值时. 
说明相对随机形成的群而言.此时的群具有更强的内部异质 
性，但是 P 不会比一 1/(£一1)更小。一个负的户会导致设计 
效应小于1，说明整群抽样比简单随机抽样更加精确。然而 
在实际中，负值的^很少出现。一般而言，^是比较小的正数 
(基本都小于 0.15) .从而> 1。 P 的最大可能取值为 
1 .对应每一个群中所有元素都具有相同的取值的情形。 

我们再次回到高中的例子。现在我们假设，在某一时刻 
学校包括 A =78个班级，而每个班级有 B =24名学生，只让 
选中的班级中的学生填写问卷是很轻松且经济的。一个包 
含10个班级的样本，会包含240名学生。下面的数字代表 
10个班中汇报阅读小说的学生的 比例： 


_9^111315161718202021 
24* 24' 24* 24' 24' 24 ' 24 ' 24 ' 24 ' 24 

整体的比例为 p r = 160/240=66.7%。 从公式 5.2 中，我 
们令 P - =欠，且 p , = y t ^然后得到： 
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从而 se ( Pe ) 为 0.04955 或者4.96%。因为 s 2 , 具有9个自 
由度，我们应当使用〖分布而不是正态分布来构建总体中百 
分比的置信区间。因此，一个 P 的 9 5%的置信区间为 66.7 士 
2.26(4.96) 或者55.5%到77.9%，其中数字 2.26 是自由度为 
9的 t 分布的95%的分界点。 

我们可以将 V ( R ) 的值与具有相同样本量的简单随机抽样 
得到的阅读比例的方差进行比较。根据公式2.6,我们 得出： 


v ( p 0 ) 


240 \ 
1 872/ 


0.6667 X 0.3333 
239~ 


= 0.0008106 


从而 se ( p „) =0.02847 或者2.85%。整群抽样得到的样 
本比例的设计效 应是： 

d 2 ( p c ) =0.002455/0.000810 6 =3.029 

使用公式5.3,我们可以得到对"的一个 估计： 
p =[ d 2 ( Pc ) _ 1]/( B _ 1) =0.088 

这些结果表明，正的内部相关性导致整群样本比具有相 
同样本量的简单随机抽样样本具有更少的精度。近似地，忽 
略 FPC 项的影响，整群样本要是简单随机抽样样本量的三倍 
才能达到相同的精度。 

正如公式 5.3 所说明的，整群样本的均值的设计效应取 
决于两个因素，内部相关系数^以及群的大小 B 。 上面例子 
中产生较大的设计效应的原因是在班级内部看电视的时间 
具有很大的同质性，或者群间也就是班级之间有较大的异质 
性。即使 p 比较小，在 (B — 1) 很大的情况下，设计效应也会 
很大。如果班级的规模为8而其中的内部同质性保持不变， 
设计效应就可以减少到1.62。在实际中，随着群的规模的减 
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少，^的值一般会增加，但变化的速度较慢，因此 B 的减少会 
主导设计效应的变化。 

在整群抽样的情形下，这一论点就意味着，给定抽到的群 
足够大以便节省调查和数据搜集的成本，群的样本量越小越 
好。如果我们有一个群的阶层 (hierarchy of clusters ) ，能够满 
足所需条件的规模最小的群是更好的选择。在高中的例子 
中，学生可以按年级或者班级分成小组;但这里年级作为群的 
单位就太大了，所以班级是更好的选择。整群抽样的问题在 
于，因为群一般包含了由于其他原因形成的小组，即使是在最 
低水平，所得的群也常常太大从而很难在整群抽样中得到有 
效的利用。这一问题的一个明显的解决方案是，将这些群分 
成子群 ( subdusters ) 用来抽样，这就是多阶抽样的基本方法。 

考虑一个两阶段抽样，从 A 个群的总体中通过简单随机 
抽样抽取出§个群来，然后人们在每个抽到的群中用简单随 
机抽样从 B 个元素中抽取 b 个单位。因此简单样本均 值为： 

y« = 2 = 土 

a P a 

仍然是总体均值的无偏估计，但是现在需要 注意： 

b 

y. = S 

P 

是对于群 a 的样本均值，而不是该群的真实均值，因为 
它并不是一个彻头彻尾的整群抽样。 L 的方 差为： 



其中 
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S 2 b = EE ( Y ^- yj 2 / A ( B - l ) 

« /J 

是群内部元素均值的方差。这一公式中的第一项代表 
整群抽样，而第二项表示在所选群内再次抽取子样本带来的 
新的方差。如果 b = B, 那么第二项为0,从而公式回到公式 
5.1 给出的整群抽样的均值方差公式。如果 a = A , 所有的群 
都包含在样本中，那么它们就成为了层。当 a = A 时，第一项 
为0,然后第二项就是公式 4.4 中按比例分层抽样的均值的 
方差表 达式 ： f = b / B , «= ab , 并且 St = S 2 b 。 

V ( y 15 ) 的一个无偏估计量 如下： 

v ( y ls ) = ( l - J ) f + 

其中 

S : =士 (允—夕 ) 2 /( a — 1) 

a 

并且 

s b = 2 2 (〜一乂) / a ( b — 1) 

o 戸 

这一公式看起来有点繁冗，因为包含了在每一抽取的 
群中计算元素的方差。如果第一阶段的抽样比率 a / A 非常 
小，那么 v ( y K ) 的第二项也非常小;所以在近似的时候，这一 
项可以被去掉。从而我们可以得到如下估 计量： 

v ( y t5 ) = s^/a [5.4] 

这样计算起来就简单多了。本质上，这一近似是将第一 
阶段的抽样当做有放回抽样。给定第一阶段的抽样比率比 
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较小，而事实上也的确如此，这一近似是可以接受的。这一 
近似在复杂抽样设计中被广泛应用，并且在很多计算抽样误 
差的电脑程序中也会用到。 

另一个对两阶段抽样的近似则考虑到了在概念上总体 
中的每一个群都可以被划为 B / b 个末级群 (Ultimate Clusters , 
UCs )， 每个末级群包含 b 个元素。使用这一设计，我们在每个 
群中使用简单随机抽样，末级群就可以被当做在每一群中由 
简单随机抽样得到的。在每一个群中，首先使用简单随机抽 
样抽取 b 个元素来组成第一个 UC ， 然后再使用简单随机抽样 
从剩余的元素中继续抽取 b 个元素，如此往复直到我们有 
B / b 个 UCs ， 而所有的元素都被包含进去(为简单起见，我们假 
设 J 3/ b 是整数从而最后一个 UC 也包含 b 个元素）。然后我 
们从 AB / b 个末级群的总体中使用简单随机抽样抽取了末级 
群，其中选择的末级群中的所有元素都被包含在样本中。这 
一设计非常接近于上面讨论的两阶段抽样设计。与两阶段抽 
样不同的是，在第二阶段抽样中仅仅从每个选中的群中抽取 
一个末级群，而这一限制对于末级群抽样而言并不存在。然 
而，给定 VA 非常小，从一个群中抽取两个 UCs 的几率非 常小; 
在这种情况下，末级群抽样对于两阶段抽样是一个比较好的近 
似。末级群抽样的吸引力在于其简 洁性: 它是一个完整末级群 
的样本，并且适用于整群抽样的公式也同样适用于此。因此，一 
个近似的对 V ( h ) 的估计就可以直接从公式 5.1 得到如下 公式: 

v(y l5 ) = (l-||)Y [5.5] 

其中抽样比率为 a /( AB / b ) = ab/AB =«/ N , 并且 s 〖为 
抽取的末级群样本均值的方差。在近似于两阶段设计的情 
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形下（比如， a / A 非常小）， FPC 项可以被去掉，从而产生与有 
放回近似相同方差的估计量。 

对于末级群抽样设计而言，样本均值的设计效应由公式 
5.3 给出，也即 l + a — Dp 其中~为 UC 内的相关系数而 
b 为 UC 的样本量。当我们使用简单随机抽样抽取 UC 时，它 
们的期望同质性与其原始的群的同质性是相同的。因此，作 
为一个近似，两阶段样本的设计效 应为： 

DHD 〜 l + ( b— IV [5.6] 

正如公式 5.6 说明的，如果 p 为正值，设计效应则随着子 
样本量 b 的减少而减少 :对于 一个固定的总样本量 n = ab ， 子 
样本量越小，被抽取的群的数量就越大，从而样本均值就更 
加精确。然而，群之间的样本越分散，抽样调査的成本也就 
越高，从而对于一个固定的预算而言，我们会得到更小的样 
本。人们往往需要平衡这两个因素，来决定抽取的群的数量 
§与每一个群中包含的元素 b 的最佳组合。为了实现这一 
点，我们需要设定一个调查成本的结构。一个简单的模型是 
C = aC a + « c , 其中 C 为总成本， C a 为每个群的成本 , c 为每一 
个元素的成本。在这个模型下，最优的 b 可以近似地由最小 
化样本均值的方差得到 （ Kish ，1965:8.3 B 部分） 

[5.7] 

V c p 

从上面的公式我们知道，在其他条件保持不变的情况 
下，如果群内的同质性越强，每个元素的成本就越高,群的成 
本越低，那么样本就应当在群之间更加分散（比如， b 取比较 
小的值）。如果相对成本 C a / c 约为17,同时^=0.07,那么 
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1^=15。给定总的预算，抽取的群的数量就可以被决定。 

虽然上面的成本模型过于简单，但它基本能够给我们一 
个一般性的指导。人们当然可以使用更加复杂的模型，只是 
需要考虑更多的复杂性是否值得。即使对于简单的模型，成 
本构成的估计也是非常复 杂的。 除了成本以外，对 b # ，的估 
计也需要对 p 的估计。这一估计常常基于过去的包含类似 
变量和抽样设计的调查。由于抽样调查具有多重目的，不同 
的变量可能会带来非常不同的^的取值，而对 b 的选取在一 
定程度上则是对不同研究目的的一种折中。 

人们使用多阶抽样一般是为了其在抽样和数据搜集方 
面的经济性。使用地区抽样 (area sampling ) 方法带来的经济 
性可以是很可观的，其中只有到最后阶段需要抽取群的时候 
才需要整合元素列表（比如，城市街区或者更小的单位）。通 
过面对面的访问来搜集数据，多阶抽样能够大大地减少访问 
员的行程。如果总体非常庞大并且非常分散，单阶段的样本 
可能太过分散•而多阶抽样则能够集中于一些地区进行访 
问。整群抽样则不能够明显提供使用电话访问或者邮件访 
问时的数据搜集方面的经济性的优势(除非人们使用面对面 
的访问来跟踪调查或者解决无应答问题），但使用电话访问 
时整群抽样则可以具有抽样上的经济性(参见第12章）。 

假设人们希望在某个城市中执行一个面对面访问的家 
庭调查。如果该城市比较小而且住户的名单是可以得到的， 
那么一个单阶段的按地区或其他变量的比例分层抽样可能 
是最佳的选择。但是如果城市比较小，而且我们没有住户的 
名单，那么人们可以使用两阶段的抽样设计来节省抽样成 
本; 按照城市街区的分层样本可以在第一阶段中产生，然后 
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可以对住户进行标记并抽样。在大城市中，即使可以得到名 
单，两阶段的样本仍然是更好的选择.因为可以节省访问员 
的时间和成本。总体的规模越大，人们越可能使用更多阶段 
的抽样方法。对于一个对全体美国人的调查，人们一般需要 
三阶段或者更多阶段的抽样(参见第12章）。 

为了简单起见，前面的讨论假设群和元素都是由简单随 
机抽样抽取的。在实践中.在有所需的分层信息时，多阶抽样 
使用的都是分层抽样，而系统抽样也常常被用到。分层抽样 
在抽取群的时候比抽取元素的时候更加重要，因为它在抽取 
群的时候能够带来更高的精度。另外，许多分层因素一般在 
对群分层时都适用。对多阶抽样中的第一阶段的群进行分 
层，或称初级抽样单位 (Primary Sampling Units , PSU ) ，使得人 
们得到尽可能多地进行 PSU , 然后从每一层(或者使用系统抽 
样的有序名单时的模糊层)中选取一个 PSU 。 有时候，级抽样单 
位的样本是进一步由控制选择技术 (technique of controlled selec - 
tion ) 来控制的 (Goodman and Kish ，1950； Hess et al . 1975)。 

当我们从一个层中选取单个的级抽样单位，即 PSU 时， 
无法直接估计层内部的方差。为了让人们可以估计抽样误 
差，我们一般将一对相似的层合并起来，并将其当做每一对 
构成一个更大的层。这种折叠层法 （collapsed strata) 会导致 
对样本误差的高估，但是如果一对层是非常接近的话，那么 
高估就不是严重的问题。如果人们将一对层打散，在每个中 
间进行初次选取，然后可以在每个层中得到两个 PSU ， 这种 
方法一般被称为配对选取 （paired selection design )。 被打散 
的层中的初级抽样单位，即 PSU ， 一般被当做有放回的抽取, 
因此可以使用简单的有放回方差的估计量。 
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上一部分中我们假设群的规模是相等的，然而这一假设 
在实践中很难被满足。事实上，由于实际中的群的规模几乎 
总是在变化，因此抽样者主要利用自然的分组来设定群。不 
可能所有的高中的班级都包含24个学生，其人数可能在20 
到30 之间； 街区也会有不同个数的住户，区县也是如此（这 
一单位经常被用到美国的全国调查 PSU 中）。我们下面会 
解释这一规模的变化给我们带来的问题，以及克服这些问题 
的一些方法。 

为了便于说明，我们会举一个虚拟的例子。我们要从一 
个包含9个街区的总体中(初级抽样单位，即 PSU ) 选取住址 
的一个等概率抽样样本,可以将这一例子设想为是在更大的 
设计中分层。9个街区包含了 315个住址，其中我们希望抽 
取一个容量为21的样本，这意味着总体的抽样比率为1/15。 
在抽样的第一阶段，我们需要抽取3个街区，然后从所选的 
街区中抽取住户。一开始，我们假设街区的规模，比如每个 
街区包含的住户数量是已知的且没有误差的。我们用表 
示在街区 a 的住户的数量，具体 如下： 

街区： 1 2 3 4 5 6 7 8 9 总计 

B a: 20 100 50 15 18 43 20 36 13 315 
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可以考虑的第一种抽样方式是在第一阶段用简单随机 
抽样抽取三个街区。每个街区从而有3/9 =1/3的概率被抽 
到。使用概率的乘法定律我们可以得出选取到某一家庭住 
址的概率。 一 般而言，使用两阶段的设计，抽到街区《中住 
户的概率 如下： 


P ( a /3)= P ( a ) P (/9 | a ) [6.1] 

其中 P ( a ) 是街区 a 被抽到的概率， P (^ U ) 为第二阶段 
中抽到街区 a 中的元素/?的概率，给定第一阶段抽到了街区 
a 。 这一公式可以在必要的时候被拓展为多阶段抽样的公 
式;在抽样调查文献中，一般称其为选择方程 （ selection 
equation ) 。 

目前的例子要求一个 f = P ( Qi 8)= l /15 的等概率抽样设 
计。由于群被选取的概率相同， P ( a ) =1/3,从而我们可以 
得到 PMI a )= l /5。 换句话说，在每一群中的第二阶段的抽 
样比率为1/5。现在，考虑一些根据这一抽样设计可能得到 
的样本。在一个极端，被抽到的街区可能包含了最少的元 
素——街区4、5和9——然而在另一个极端，它们可能由最 
大的三个街区构成——2、3和6。在前者的情况下，在每个 
群内使用1/5的抽样比率总共会产生9个家庭住址•而在后 
者的情形下.则会包含39个家庭住址。平均而言，如果我们 
考虑到所有可能被抽到的三个街区的组合，样本量为21，然 
而实际中根据一次抽取得到的样本量则可能与这一数字有 
很大差别。 

这个例子中的样本量的变异性很大程度上源自一些抽 
取的群所包含的元素太少。然而，在其他抽样过程中.群的 
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规模的变化则可能比本例中街区群的规模变化大得多。因 
此.很明显我们需要一种方法来对抽取的样本量的潜在变化 
进行控制。虽然我们并不需要把样本量固定在某个数值上. 
但还是需要对它设定一些合理的界限。 

一种可以减少样本量变化程度的方式是根据群大小来 
分层。在前面的例子中，我们可以将街区根据其规模分为三 
层 :一层 可能包含街区2、3和6,第二层包含街区1、7和8, 
第三层包含4、5和9。从每一层中抽取一个街区可以将样 
本量的变化减少至 15( 街区1或7、6和 9) 到 31( 街区2、5和 
8)。如果选取更多单位的话，根据规模分层一般会实现对样 
本量的较好控制。然而.使用规模分层会减少使用其他因素 
进行分层。考虑到这一点，我们提出另一种控制样本量的方 
法，而这种方法也更为常用。 

首先，设定我们希望样本能满足的条件：（1)它应该是等 
概率抽样 样本； （2) 它应该被限制在3个街 区中； （3) 样本量 
最好被固定在》=21,无论我们抽取哪些街区。第一个和第 
三个条件都暗示了 PCa /3) =1/15。如果每一层中可以抽出7 
个元素，那么第二个和第三个条件也能被 满足; 在此情况下， 
第二阶段的在街区^中的选择概率为 P ( i 3| a )=7/ B 。。 将 
P ( a / 3) =1/15和 P (/3 丨 a ) =7/ B a 代人选择方程，我们就可以 
得到： 


-= P ( a ) X - 


从而可以得出选取街区 a 的概率为口(《)=6。/105。因 
此，如果我们使用 PPS(Probability Proportional to Size ) 与 i 3 a 
成比例进行概率抽样抽取街区的话，那么三个条件就都能够 
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被满足。 

一般而言，对于一个使用 PPS 抽样的等概率抽样两阶段 
的样本选择公式 如下： 

P ( a /3)=/ = J = ^ (^) M 

其中§个初级抽样单位 PSU 是使用 PPS 抽取的，从每 
个已抽取的初级抽样单位中再抽取 b 个元素，从而得到 n = 
ab , 以及 N = ZB 。。 这一公式可以被延伸到三阶段抽样的 

情形下，其中有§个初级抽样单位，从每个初级抽样单位中 
抽取得到的 b 个二阶段单位 (Second Stage Units , SSUs ) ，以 
及在每个二阶段单位 SSU 之内抽取 c 个 元素： 




成 


戰) 


其中 7 J = abc ， 是在初级抽样单位 PSUa 中的二阶段 
单位 SSU /? 的样本量，并且2>#=民。 

使用 PPS 选取街区可以通过将其样本量累积起来 如下： 


街区； 1 2 3 4 5 6 7 8 9 

B „, 20 100 50 15 18 43 20 36 13 

累计的 B „ : 20 120 170 185 203 246 266 302 315 

使用累计总数，每个街区就对应了一个数字 ：街区 1对 
应20个数字，从001到020;街区2对应100个数，从021到 
120;街区3对应50个数字，从121到170,依此类推。根据 
这种方式，每一个街区所对应的数字与其样本量艮相同。 
一个从001到315的随机数从而可以在 PPS 下选取街区。 



抽样调查方法简介 


比如我们抽到的随机数为197.那么就会抽到街区5。 

使用上述方法，我们可以抽取三个随机数从而得到三个 
街区，然而这种有放回的抽取却可能使一个街区被多次抽 
到。这里，人们可以使用系统抽样来实现无放回的 PPS 抽 
样。我们可以将总数315按照我们希望分组的个数，即三 
个，得到长度为105的抽样区间。一个从001到105的随机 
数被选取.比如047,可以决定第一选择，即街区2。然后，105 
就可以被加到152,使得街区3成为第二 选择; 继续此过程我 
们得到257,从而得到街区7作为我们的第三选择。 

我们也可以在 PPS 抽样中使用前面提到的末级群抽样 
(unltimate clustering sampling ) 近似的方法。假设在 PPS 的 
第二阶段，我们从每个被选择的初级抽样单位中通过简单随 
机抽样抽取 b 个元素。然后，为了匹配末级群，我们在每一 
个初级抽样单位的总体中可以形成末级群，即 UC , 也就是用 
简单随机抽样从中抽取 b 个元素形成第一个末级群,然后在 
剩余的元素中用简单随机抽样抽取 b 个元素形成第二个末 
级群.如此往复直到所有的元素都被抽取完毕。通过这种方 
式, 包含艮 的初级抽样单位 a 就可以被分为 艮 / b 个末级群 
(我们在这里假设 B a / b 是一个整数）。然后，在这些末级群 
中使用简单随机抽样就与无放回的 PPS 抽样是等价的，但唯 
一的不同是末级群抽样可能会从一个初级抽样单位中选择 
多于一个末级群，而这一点在 PPS 中是不可能的。但给定从 
一个初级抽样单位中抽取两个末级群的概率非常小，两种方 
法的差异是可以忽略的。为了看出这两种方法之间的相似 
点，我们需要知道在末级群抽样中•从初级抽样单位 a 中抽 
取一个末级群的概率与 PSU 中末级群的个数成正比，即 
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B 0 / b ( 比如，它与初级抽样单位的规模成正比）。 

因为 PPS 抽样是等概率抽样的.同时其样本量是固定 
的，其简单样本均值为： 

y P = 2 = S 夕 。 /a 

a P a 

是一个总体均值的无偏估计量。末级群样本近似对 V ( y p ) 
给出的方差估计量（见公式 5.5) ,我们忽略 FPC 项可以 得到： 

v ( y p ) ^ s^/a [6.3] 

另外.使用 PPS 进行第一阶段抽样和简单随机抽样进行 
第二阶段抽样的样本均值的近似的设计效应可以由公式 5.6 
给出，即 [ 1 + (b — l ), o]o 

在实践中，上面描述的 PPS 抽样很少是可行的，因为我 
们往往不知道真实的抽样单位的规模。然而.我们却可以通 
过近期的人口普查或者其他数据来得到一个比较好的估计， 
而在其他情形下我们也可以通过其他途径来得到可靠的估 
计。如果我们已经有了比较好的估计的规模或者其度量，那 
么我们在 PPS 过程中使用它们来替代真实值一般也是可以 
的。然而，很重要的一点是.我们需要分辨使用真实规模和 
估计规模的差别；因此，我们将仅用按规模大小成比例的概 
率抽样 ( PPS ) 对应我们使用了真实总量的情形，而使用按估 
计规模大小成比例的概率抽样 （ PPES ) 来对应其他的情况。 
我们将估计的规模或者其度量记为 M „ 。 

与公式 6.2 相对应，在第一阶段抽取了 §个初级抽样单 
位的两阶段 PPES 的选择方 程是： 

P( # )=/= 蟲（忐） [ 6 . 4] 
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这个公式的一个重要意义在于，为了使样本是等概率抽 
样的，第二阶段的抽样比率是 （ b / M a )。 将这一比率应用到 
在被选择初级抽样单位 a 中抽取个元素，我们可以得到 
从该初级抽样单位中得到的期望样本量为 b ( B 0 / M 0 ) 0 这一 
期望样本量会依照比率 ) 的不同而在初级抽样单位 
之间有所差别，而只 有当氏 时样本量为 b ， 即当初级抽 
样单位估计的样本量等于其真实样本量时。为了保留样本 
的等概率抽样性质，我们需要接受从不同初级抽样单位中抽 
取的样本的变 异性； 如果估计的规模是足够精确的，那么这 
一变异性是可以接受的。 

为了举例说明，我们在此假设九个街区的真实规模 (BJ 
是未知的。通过在这一地区快速巡游，我们会得到一些比较 
粗糙的估计为从而可以将其用到 PPES 中。 M a 的值由 
下面给出，同时给出的还有每个初级抽样单位期望样本量 
(假设选中了该初级抽样单位）。这些期望的样本量可以通 
过将比率 7/ M 。 来代替前面的相应数字。一旦被选中，初级 
抽样单位的真实规模就会被决定。 


街区： 

1 

2 

3 

4 

5 

6 

7 

8 

9 

M a ： 

30 

110 

50 

20 

20 

50 

10 

50 

20 


20 

100 

50 

15 

18 

43 

20 

36 

13 

期望样 本量： 

4.7 

6.4 

7.0 

5.3 

6.3 

6.0 

14.0 

5.0 

4.6 


由于并非完全准确•期望的样本量会有一些变化.但 
是大多数情况下，这种变化是可以接受的。但需要注意的 
是，如果选择了初级抽样单位7的话，我们会得到很大的期 
望样本量,这是因为初级抽样单位的真实大小 （20) 被低估 
了。在分配规模的度量的时候,我们需要注意避免低估总体 
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的情况，因为此时会出现一些问题。举个例子，我们根据上 
次人口普查估计一个街区包含10个家庭住址，然而最近新 
建的一栋建筑中包含了 800个新的住所。另一个期望样本 
量的明显特征是，其大多数都小于 b 的值（7)。为了解释这 
一点，我们需要注意到倾向于高估 B „ ： 2 =360,而 

=315„为了得到一个《 =21的样本，整体的抽样比率 
需要被设定在21/360 上； 期望的总样本量因此是 （21/360) 
315 = 18.4。这一差异使得人们必须试图为总体寻找一个比 
较好的估计。 

正如我们在前面所讨论的，使用 PPES 抽样的一个后果 
是总样本量并非固定的，而是一个随机变量，其依赖于所选 
择的初级抽样单位。为了强调这一点.我们用: c 而不是《来 
代表总样本量，用 r = yU 来代表样本均值，其中^是>> 变量 
在样本中的总和。在这里，我们将样本均值叫做比率均值 
(ratio mean ) 或者比率估计 （ratio estimator ) ,是因为它是两 
个随机变量的比值。比率均值并不是总体均值的无偏估计, 
但是如果 _ r 的变化足够小的话，其中的偏差是可以忽略的。 
当 J ： 的变化系数 （coefficient of variation ) 小于 0.1 的时候，可 
以放心忽略这一偏差，其中变化系数被定义为 I 的标准误差 
与其期望的比值，即期望的样本量。 

比率均值的方差比较复杂，因为它的分母是随机变量。 
因此，只有在大样本的情况下，基于泰勒展开 （Taylor expan - 
sion ) 或者 delta 方法，我们才能对其进行近似。为了合理使 
用这一近似，我们需保证: r 的变化系数比较小，一般是小于 
0.2 或者最好小于0.1。比率均值 r = y / x 的近似方差估计量 
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的一个一般表达式 如下： 

v ( r ) [ wCy ) + r 2 t )( j ) — 2 rc ( x , y )]/ x z [6.5] 

其中， cCr , > 0 是 : c 和 3 /的样本协方差。为了应用这一公 
式，我们需要用合适的公式来代替 w (: y ) ， iKx ) 以及 r ( x ，_ y )。 
为了说明这一点，考虑一个等概率抽样的分层多阶段抽样。 
让^^表亦 ; y 变量在层 A 中初级抽样单位 a 的样本的和，让 
• T & 表示该初级抽样单位中的样本量 ，让％ 表示 J 变量在层 
h 中的 a * 个被抽中的初级抽样单位的和，让: c A 表示该层的 
样本量。然后，使用有放回的近似，得 到： 


心）= 2 a i > s % 

h 

v{x) = ^ a h sl h 

h 

C(x，>0 a hS X yh 

h 

其中 


、 ayh 


a 

=s 


y!, a 


00 ha 


e ) 

(工 h ' 

t . 


( a * — 1) 
/ ( a h — 1 ) 


yha - 

-P)l 

_ 



ia h — 1 ) 


在此，我们需要说明公式 6.5 中 Wr ) 使用上面替换的一 
般性。这一公式适用于任何等概率抽样分层多阶段抽样的 
情况。不管抽取初级抽样单位使用什么概率以及不管在初 
级抽样单位内部是如何抽取子样本的，这一公式都是适用 
的。这一公式适用于非分层选取的初级抽样单位（特殊情况 
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是只有一个层)得到的样本以及样本量固定的 PPS 样本一 
此时 v ( x )=0 而且 c ( x , y ) = 0。 这一条可以被应用到基于总 
样本和子群体 （ subclass , 比如有工资收入的人或者已婚者） 
的比率均值以及百分比之上。唯一的限制在于，我们需要保 
证变异系数小于 0. 2，以及有放回的近似是合适的。通过修 
改 X 和: c 。 的定义，我们可以将公式 6.5 拓展到非等概率抽 
样的情形下。关于这一点的更多讨论，参见基什 （ K 1S h , 
1965:第六章)。 

在我们结束对 PPS 和 PPES 的讨论之前，我们需要指出 
另一个在实践中常常碰到的问题。为此，我们将前面的街区 
的例子做了一些修改。现在，我们需要从十个街区中抽取三 
个，每个街区的估计规模为 A ^， 并且 S M «=315： 

街区： 123456789 10 

M „： 20 120 45 15 18 43 5 0 36 13 

和前面一样，我们期望的样本量为21，说明子样本量应 
当为 b = 7。 在使用前面的抽样方式时，有两个问题。 

首先，使用区间为105的系统抽样会导致街区2被重复 
选取。由于它的规模大于区间长度，因此它既有可能在样本 
中岀现一次，也有15/105 = 1/7的概率被选取 两次: 如果开 
端的随机数在021到035之间，那么初级抽样单位2就会被 
同时选为第一个和第二个单位，因为给这一区间内的数加上 
105得到的值仍然小于140,即街区2的累计规模。一个简单 
的解决方案是接受这两个选择，并从这一街区中抽取两个不 
同的子样本。另一个解决方案是对初级抽样单位2的出现 
进行限制，比如说，一个层中。具体来说，我们将这一街区单 
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独作为一层，其中的元素使用整体的抽样比率1 : 15»然后， 
我们在剩余的元素中使用 PPES 抽取两个街区，其抽样比例 
也为1 : 15。此时，对于后面的层而言，由于 b 减少了，此时 
该层 ^；M a =195, 2b/195=l/15, 从而 b = 6.5。 在实践中， 

这种初级抽样单位非常大从而可能在抽样中出现两次的情 
形是经常会发生的。我们经常把它们当做独立的层，将它们 
叫做自代表的 （self-representing) 初级抽样单位。 

由选择方程得到的第一阶段选择概率大于1可以鉴别 
出过大的初级抽样 单位； 对于街区2而言，其被选择的概率 
为 aM„/2 M . =3 X 120/315=360/315。另一个在 PPS 或 

者 PPES 抽样时经常会碰到的问题是过于小的初级抽样单 
位，对应其第二阶段被选择的概率 b/M。 大于1。街区7就 
属于这一类，因为 b = 6.5 而其大小只有5。处理这一问题的 
一个简单方法是将这一街区与地理上相邻的街区合并，然后 
将两个街区当做一个群。这一方法在未选之前是很容易实 
现的;在选择之后，人们也可以使用一些合并的规则将其合 
并 (Kish，1965：244—245) „如果存在很多小规模的初级抽 
样单位而将其合并会导致一些实地调查的困难，我们可以将 
它们放置到单独的层中分别抽样。一般而言，最小的初级抽 
样单位规模会被设定在大于 b 从而避免数据搜集时将该初 
级抽样单位中的元素全部抽取或者过度抽取的问题。对于 
b=6.5, 我们可以设置最小的初级抽样单位规模为13,从而 
保证子样本的抽样比率不超过1/2。 

最后，我们注意到街区8的 M。 =0,从而不可能从中进 
行抽样。然而,事实上 Ai 仅仅是一个估计的规模，也许其现 
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状已经变化，而街区8已经包含了一些住户。我们可以将街 
区8与其毗邻的街区合并起来，从而让街区8现在包含的住 
户有被抽到的可能性。这一方法可以避免将总体中的一些 
元素被抽到的概率为0所带来的偏误。地区抽样的一个重 
要特征是即使当我们已经对地区的规模已经进行了估计，每 
一个可以居住的地区依然会被赋予抽中的概率。 
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总结而言.前面章节中所讨论的抽样方法对于处理大部 
分抽样问题已经足够了。然而，我们也会讨论一些在某些情 
况下更加合适的其他方法，包括二阶段抽样 （ two-phase sam- 
pling )、 重复抽样 （replicated sampling) 以及面板抽样设计。 
在这一章中，我们将讨论以上三种抽样设计。 
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第1节 I 二阶段抽样 


在二阶段抽样或称双重抽样 （double sampling ) 之中，人 
们在初期或第一期 （ first - phase ) 搜集一些信息项，然后在第 
二期从初期样本的子样本中获取更多的信息项。这种方法 
可以被拓展到多期（多期抽样 ， multiphase sampling ) ，但在大 
多数情况下，两期抽样就足 够了。 

一个使用二阶段抽样的场合是，人们对于一个调查中的 
不同估计值的精确度的需求是难以调和的，这就意味着我们 
需要不同的样本规模。在这种情况下，我们可以从第一期较 
大的样本中获取一些估计的信息，然后在第二期的样本中获 
取其他需要得到的估计。二阶段抽样不仅可以降低数据搜 
集和处理成本，也能够降低某些受访者的工作量。二阶段抽 
样的一个例子与美国的人口与住房普查有关。在近期的人 
口普查中.我们可以搜集到全部人口的基本人口学信息以及 
其他信息(第一期的样本列举了总体的全部），然后只从总体 
的子样本来获得其他额外变量的信息。 

人们使用二阶段抽样的另一个原因在于.抽样者希望使 
用某些总体的数据来进行有效的抽样设计，但从总体获取这 
些信息代价过大。为了更经济，可以先为了得到第一期的大 
样本来搜集数据，然后再从中抽取第二期的样本。使用这种 
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方法，第一期的样本可以提供第二阶段抽样时分层的信息， 
对 PPS 或 PPES 抽样时的规模的估计，或者群的信息。为了 
对二阶段抽样的有效性进行评估，我们需要考虑到第一期抽 
样的 成本； 因为存在这些成本，第二期样本量必须要少于单 
期的样本量。正由于此，只有当第一期抽样的成本比第二期 
抽样的成本小的时候，二阶段抽样才是有用的。当我们使用 
不同的方法在两个阶段中搜集数据时，两期的成本可能存在 
很大 差异： 比如在第一期，我们使用邮件或者电话访问，而在 
第二期中使用面对面或者更昂贵的访问形式（比如一些医疗 
调查）。 

在调查少数人群的时候常常使用二阶段抽样，也就是 
说，总体中的子群体没有明显的抽 样框： 比如越南退伍军人、 
黑人，或者近期退休的人。对少数人群进行经济而有效的抽 
样设计是抽样调查者常常面临的一个富有挑战性的@题 
( Kish , 1965:第 11.4 部 分）。一 个可以考虑的方法是在二阶 
段抽样的第一期样本中将少数人群的成员以不高的成本标 
记出来，然后在第二期中对他们进行更深人的调查。本质 
上，这一方法采取的是两期分层抽样的步骤。根据其是否属 
于少数人群，第一期样本的成员被分为两个（或更多）层中。 
然后，人们对不同的层不按比例进行抽样。如果第一期对少 
数人群的标记是没有误差的，那么我们可以设定少数人群的 
成员的层抽样比率为1，而非成员的层的抽样比率为0。然 
而，如果这一标记是有误差的.那么对于第二层的抽样比率 
需要被设定为非0,从而让被错误地分配到该层的少数人群 
有非零的抽中概率。当第一期的标记并不完美而人们一定 
会犯错时，多报比少报要好一些，因为前者更加容易处理。 
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比如，在一个研究听力严重受损的儿童的调查中，最初的筛 
选可以使用对听力受损的比较松弛的定义，从而保证第二期 
的研究中包括所有听力严重受损的儿童，第二期听力受损程 
度可以在可控的实验室条件下来测量。 

为了说明二阶段抽样在群中的应用，我们以一个在欧洲 
城市中进行的对选民政治观点的调查为例。我们将该城市 
所有选民按字母顺序排列的包含居住地址的名单作为抽样 
框。由于该城市规模很大，而调查方式被设计为面对面进 
行，因此我们希望在抽样中使用群来减少访问员的旅途成 
本。从理论上讲，选民的地址可以被用到对群的分配中，但 
是其成本却是异乎寻常地高。相反地，我们可以选取一个十 
倍于要求样本的样本，然后将其基于地理位置的相似性分为 
等规模的群•最后从中抽取1/10作为最终的样本。 
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第2节 | 重复抽样 


在重复抽样或贯穿抽样法 （interpenetrating sampling ) 
中，总样本由一系列重复抽取的子样本构成，每一个子样本 
都是使用同样的抽样方法得到的。重复抽样可以用来研究 
变量的非抽样误差 (nonsampling errors ) ，比如由不同访问员 
和编程者得到的结果的变动以及辅助计算变量的标准误。 
这种方法的精髓在于，每一个子样本都能够提供独立的、可 
比的、对总体参数的估计。 

在此，我们举一个为了研究访问员效应 （interviewer 
effects ) 而进行重复抽样的例子，其中要求使用简单随机抽样 
抽取容量为1 000的样本，由20个访问员完成任务。在无重 
复抽样的情况下，可能会根据地理的便利程度，将1 000个受 
访者分配给不同的访问员，比如将最难采访的地区的受访者 
分配给最优秀的访问员。当一个访问员不能成功地采访被 
访者时，人们也许会派遣另一个更有经验的访问员重新采 
访。由于这一对访问员的分配并不是随机的，访问的结果当 
然也会根据访问员不同而出现差别，但由于这一差别同样可 
能是由样本中受访者的差别造成的，我们无法厘清这两种差 
别的来源。 

在一个简单的重复抽样设计中，我们使用20次独立的 
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简单随机抽样抽取出规模为1 000的总样本，每个子样本的 
规模为50,然后每个访问员在一个子样本中进行50次访问。 
由于这些样本是完全可比的，任何除去抽样波动的子样本的 
差别都可以被归结为来自访问员之间的系统性差别。具体 
来说.我们可以使用单向的方差分析 （analysis of variance ， 参 
见 Iversen and Norpoth , 1976) 来区分抽样的波动与真实的 
差异; 然而，当重复抽样的过程采取比较复杂的抽样设计时， 
对应的计算方式也会不同。 

为了描述访问员变化 (interviewer variance ) 的计算方式， 
我们 令殳， A ， … ，孓表示从 c 个子样本中得到的均值.其 
中每个子样本被分配到一个访问员下。这些 c 个均值的方 
差可以根据 V , = 2 — 3')V(c— 1) 进行估计，其中 y = 

E h / c 是子样本均值的均值。这一估计量对于是否存在 
系统的访问员效应没有任何 假设； 当这一效应存在时，我们 
期望这一估计量大于不存在对应的情形。在不存在访问员 
效应的零假设下,我们可以使用简单随机抽样理论来提供对 
于 i 的方差的另一个估 计量： 在公式 2.3 中.忽略 FPC 项， 
得到 v ( y ,)= s ；/ r , 其中 S ) 是在第 y 个子样本中的元素的估 
计方差，而 r = »/ c 是子样本量。在 c 个子样本中的 v ( h ) 的 
估计量的均值为 v 2 = s 2 / r , 其中 s 2 = 2 4/ c 为在子样本内 
的方差估计量的平均。比较 V ,和我们可以得到一个对零 
假设的检验。这一比较可以通过取得二者比值 F = v ,/ v 2 = 
rv ,/ s 2 获得，其中比较大的 F 值就说明存在访问员效应。对 
F 大于1的显著性检验可以通过标准 F 检验进行，其中 
( c -1) 和 c(r — l)=( w — c ) 为其自由度。一个有用的标记 
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访问员变化的指标是层内相关性系数 (intraclass correlation co - 
effcientV ， 我们用其度量 y 值的总方差中可以被纳人访问员 
变异的部分。对一的估计可以由 （ F —1)/( F —1 + r ) 得到。 
对于具体例子，请参考基什的研究 ( Kish ， 1962)。 

访问员中存在的变动得到的结果与群的结果比较相似， 
每一个访问员的分配其实是单独的整群效应。因此，与整群 
样本的设计效应相同，重复抽样中的访问员变动的效应可以 
由将简单随机柚样的总体样本均值的方差与 [1 + ( r - l ) p ] 
得到。对于整群抽样的情况.即使是一个很小的^也可能会 
导致很大的乘数效应，因为 r . 即每个访问员进行的访问次数 
可能非常大。根据简单随机抽样理论得出的对整体均值的 
方差的估计(公式 2.3) 并不允许整群效应或者访问员效应的 
出现。事实上，基于子样本之间的变化使用重复抽样得到抽 
样方差的估计量是很有吸引力的，因为它能够自动包含访问 
员变动的整群效应。正如我们下面要说的，这一方差估计量 
事实上为 v ,/ c ， 是简单整群抽样方差的估汁量(公式 5.4 )/a 
的另一种表达形式。 

使用重复抽样来研究系统性的访问员效应或访问员变 
化的成本的一个重要来源是，我们需要随机选择访问员，而 
不是以更有效率的安排为目标。而研究访问员变异的便利 
程度则依赖于一般的调查 条件； 比如，我们更容易在电话访 
问而不是面对面访问中实现这一点，而对于面对面访问来 
说，更容易实现小的、紧凑的样本。对于一个非常分散的、总 
体的多阶段抽样，如果我们完全随机地分配访问员，那么访 
问员的旅途成本将明显增加，但完全的随机分配一般并不是 
必须的。如果我们采取某些有限形式的重复抽样，比如在某 
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一初级抽样单位或者层中使用随机访员分配，仍然能够让人 
们对访问员变异进行估计。 

使用重复抽样的另一个原因在于，人们可以提供对简单 
方差的估计。给定我们有 C 个从独立重复抽样中得到的对 
参数 Z 的估计， z , ， z 2 ， …， z ( ，其均值 z =XI ^ r / c 的方差 
的估计可以由下式 给岀： 

V ( z ) = V { z y )/c 

其中可以由 f 个值估计 得到： 

Vi = 2 (Zy — Z) 2 /(C — 1) 

从而 

xi ( z )= P)/r = y ^( z T — z ) 2 / c(c — 1) [7.1] 

可以给出一个根据重复抽样估计方差的一般形式。这一公 
式可以被应用到任何形式的统计中（比如指数、相关与回归 
系数，以及简单均值和百分比），另外子样本设计也可以采取 
任何复杂的形式（比如分层多阶段 PPS 设计)。 

使用公式 7.1 的一个小问题在于，它给出了重复值5的 
均值的方差。这一均值一般与将子样本合并成为一个大样 
本得到的估计量2并不相同，而事实上 i 则是我们更加偏好 
的估计量。然而,在实际中两者的区别一般都很小。人们通 
常采用的方法是，计算2并且使用公式 7.1 或者其简单变换 
来计算 W 5)， 从而提供一个对2的方差的估计。 

使用这一方法的一个重要方面在于对 c 的选择，即使用 
多少重复样本。如果我们选择很小的 c ，对 vU ) 的估计则会 
不精确•而这一问题会影响到对我们感兴趣的参数构建置信 
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区间的宽度。给定我们有 r 个重复样本， 1(5) 有 （C 一 1) 个自 
由度； 因此，在构建置信区间的时候，就可以使用有 （ C — 1 ) 个 
自由度的 f 分布。为了说明这一效应，让我们考虑一个有 
1 000个元素的简单随机抽样。使用通常的方法，我们得到尹 
的95%的置信区间为5 土 1.96 sA /^， 其中 1.96 是从标准正 
态分布表中得到的。如果我们有容量为100的10个子样本 
的重复抽样设计，其95%的置信区间为3； 士 2.26/ vWI ^, 
其中 2.26 是从具有9个自由 度的？ 分布表中得到的。如果 
我们有容量为250的4个子样本的重复抽样设计，其95%的 
置信区间为其中 3.18 是从具有3个自由 
度的 f 分布表中得到的。由于在每种情形下，标准误差的估 
计量都是对真值无偏的，包含了 10个子样本的重复抽样的 
估计得到的置信区间比使用通常估计量大15%,而包含了 4 
个子样本的设计得到的估计的置信区间则会比通常的估计 
量大62%。为了得到一个比较合理的精确的方差估计量，我 
们需要比较大的 c ， 从而进行更少的分层。这一情况的出现 
是因为每个子样本必须至少从每一层中选择一次。在多阶 
段设计的情况下，对分层的限制造成的危害尤其大。为了说 
明这一点，我们选取了 60个初级抽样单位。在通常的方法 
下，初级抽样单位应当被分为60个层，其中每层包含一个选 
择.或者分为30层，其中每层包含两个选择。如果我们有一 
个包含10个子样本的重复抽样设计，那么层数的最大值则 
被减少到了 6。 

总体而言，使用重复抽样得到的简单的方差估计量的代 
价是对精度的损失 ：如果 r 很小的话，那么方差估计量的精 
度则会由于自由度的限制而 减少； 如果 c 比较大，那么调查 
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估计量本身则会损失分层的层数。由于这些原因，简单重复 
抽样实际上并没有得到广泛应用。相反，人们发展出了一些 
伪重复抽样技术 ( pseudoreplication techniques ) 来使得分层仍 
然能够被使用，并同时给出可观的 精度。 我们将在第10章 
中讨论这些技术。 
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第3节 | 面板设计 


在前面的章节中，我们暗自假设了抽取的样本是截面的 
( cross - sectional ) ，从而只进行了一轮数据搜集。然而，事实 
上有很多调查的目的要求在两个或者多个时点上进行数据 
搜集。虽然前面介绍的抽样方法在此依然适用，但是由于现 
在考虑到时间维度，我们需要进行一些抽样方法的说明。 

进行多轮的数据搜集的一个目标是捕捉信息随时间的 
变化。在这里，我们需要区别总变化 （gross changes ) 和净变 
化 (net changes ) ，前者指的是在元素级别的变化，而后者指的 
是在加总层面的变化。如果我们需要个人层面变化的度量， 
比如在研究休闲活动的变化对血压的影响时，那么我们就需 
要对同一样本进行多轮的数据搜集。只要我们关心的是净 
变化，比如说研究某一政治领袖的受欢迎程度变化，那么我 
们并不需要对相同的样本进行追踪。但是.即使对于净变化 
而言，人们对于相同的样本进行追踪往往是更有效率的。 

在不同时点进行访问的另一个目的在于，人们可以在数 
据可得或者能够被准确汇报的时候对信息进行采集。因此. 
当我们在调研中希望记录家庭年收人时，就可以在一年中的 
不同时点进行采访，从而可以在人们的记忆比较清晰时采集 
信息。另外，在一个研究儿童学前教育与学校表现的研究 
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中，人们几乎必须要在学前以及就学两个时点进行数据搜 
集。仅仅依赖于事后人们对此的回忆是不保险的，因为人们 
可能会因为在学校的表现不同而扭曲了学前阶段的回忆。 

在面板研究或纵贯研究 （longitudinal survey ) 中，人们需 
要在不同时点对相同的个体进行访问，而这一点会引发一些 
在横截面研究时不会出现的问题。一个问题在于被调查者 
的迁移。在众多面板研究中，很多元素，包括个人或者家庭， 
会在面板研究的时间段内迁移。这些迁移者需要被保留在 
面板研究中，因为我们需要保持在开始时选择的概率样本的 
完整性，这一点也要求我们发展出更有效的追踪方式。由于 
一些迁移者会离开在多阶段抽样中抽取到的初级抽样单位， 
这会使得之后几轮的面对面访问的数据搜集成本大幅增加。 

面板研究的第二个问题在于总体会随时间发生变化 ，一 
些在初始总体中的元素不再属于总体，同时也会有一些新元 
素加入。在此，我们需要考虑一个长期的关于某社区健康的 
面板调查。起初，我们抽取了这一社区成员的概率样本，然 
后对他们进行数年的追踪。在这一时间段内，该社区的人口 
可能会发生变 化:一 些原始的居民会离开，比如有些人去世 
或者有些人搬离了该社区，同时也会有一些新的居民加人， 
比如新生儿的出生以及搬人社区的人。离开社区的这部分 
人会导致样本量的减少，但该面板仍然是该社区的原始居民 
中没有离开的人的一个概率样本。而新进人社区的这部分 
人则导致他们在样本中没有被代表。因此，这一样本对于所 
有该社区的总体来说并非一个概率样本，因为该总体的结构 
在变化。当一个总体中有相当比重的新进人者，而我们需要 
之后出现的总体对应的横截面的结果时.我们需要一个新进 
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人者的补充样本 （supplement sample )。 如果我们研究的元 
素是一个组时，如住户，那么问题会比较复杂。大量的住户 
在短期之内（比如一年)的构成可能会变化，从而产生面板研 
究中的一些概念和实际操作的问题。 

面板研究的另一个问题在于反复采访可能会对受访者 
产生负面影响。一些人可能因为负担太重而拒绝采访，甚至 
拒绝继续留在面板里，从而导致面板中成员的偏误(参见第9 
章关于无应答的介绍）。而一些人可能因为在面板中从而对 
调查的主题有一定了解，进而导致他们给出一些不典型的应 
答。这种面板效应可能会岀现在一个访问消费者的面板调 
查中，其中要求受访者定期汇报他们的家庭购买行为。这种 
定期汇报的形式可能会使被调查者对价格更加敏感，从而改 
变他们的购买习惯。另一个与此相关的面板研究中的问题 
在于，受访者可能对他们之前的回答有记忆，从而试图给出 
前后一致的回答。 

一个常用的用来解决面板调查中出现的以上问题的方 
式是限制元素在面板中持续的时间，具体办法是采用面板轮 
换的方式 （panel rotation ) „举个简单的例子，面板中的每一 
个成员可能在为期三轮的调查中都被留下。在每一轮中， 
1/3的前一轮的样本会被扔掉，同时新的1/3的样本会被加 
人 :这些 新人会被包含到接下来的两轮中。因此，使用字母 
来表示样本的三个部分，如果第一轮的样本为 ABC , 第二轮 
为 BCD . 第三轮为 CDE , 第四轮为 DEF , 依此类推。在这种 
方式下，相邻的两轮的样本存在2/3的重叠，而隔一轮的两 
个样本则存在1/3的重叠。 

正如我们之前观察到的，面板设计可能是很有用的，但 
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是对于净变化而言并不是必须的。让我们考虑对时点1和 
时点2的变量^的均值的变化的估计量5； 2 _父。这一差别 
的方差由如下公式 给出： 


V ( y 2 — yj ) = VCp !) + V ( y 2 ) — 2 R \/ V ( y ,) V ( y 2 ) 

[7.2] 

其中反为样本均值兄和 A 之间的积矩相关系数 （ product - 
moment correlation coefficient ) 。 如果我们有两轮不相关的 
样本,那么反=0。如果两轮样本间有重叠，那么反不为0;它 
一般是正值，但有时也是负数。公式 7.2 的最后一项反映了 
人们在使用面板设计时对估计量的精度的收益（正的 G ) 和 
损失(负的艮)。 

为了更加深人地理解样本重叠对于测量变化的度量的 
影响,我们现在考虑一个简单情形，其中包含静态的总体以 
及样本量为„的简单随机 抽样; 另外.假设(一般而言是可以 
接受的近似)两期的元素方差是相等的（即 S 〗 =骂 = S 2 )， 在 
此我们忽略 FPC 项。接下来，如果两个样本有比例为 P 的重 
叠，公式 7.2 就可以简 化为： 

V ( y 2 - y ,)=2 S :! ( l - PR)/n 

其中 R 是元素^的值在两期的相关系数。有两种特殊 
情况: 一是两个独立的样本对应的 P = o , 第二种就是完全重 
叠的两个样本的 p = l 。 当 p =0 时，这一差别的方差为 2 SV 
»，因此在面板研究中的这一差别的方差与两个独立样本的 
方差之比为 （1 一 PR )。 为了继续说明，假设个人的政治态度 
(或者血压）在两期的相关性为0.75。那么，完全重合的面板 
会将 A — >的方差以乘数 （1 一 0.75) =0.25 减少。 2/3的重 
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合 (1/3 被替换掉)会将丸一兑的方差以乘数 [1-(0.75 X 2/3)] 
= 0.5 减少。如果跨时的相关性很高，那么面板设计的优势 
在衡量变化方面的作用是很大的。在轮换面板设计的情形 
下，人们可以使用更复杂的估计量来获得更多的收益（参见 
Kish , 1965:463—464)。然而，需要注意的是，如果 R 是负数 
(比如当 y 变量表示在上个月的耐久性商品的购买），那么面 
板设计会导致在衡量变化方面的精度的损失。比如，当 
R = —0.2 时，以及在完全重叠 P = 1的情形下， (1- PR )= 1.2, 
使得这一变化量的方差比两个独立样本的方差大20%。 

最后需要说明的是,在公式 7.2 从非独立样本中的正相 
关中得到的收益并不局限于相同的元素都在面板中的情形。 
尽管相关系数&一般会小于相同的元素被保留的情形，保留 
相同的群但是选择不同的元素的抽样设计对于度量变化也 
是有益处的。一个有效避免追踪迁移者的设计是对住址而 
不是住户进行抽样，因为一个离开某一住址的住户会被新来 
的住户所取代。 
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抽样框是抽样调查中的一个重要组成部分。它不仅提供 
了一个识别和定位总体中的元素的方式，而且经常包含很多 
额外的可以用来分层或者聚类的方式。抽样框的组织也经常 
对抽样设计发挥重要作用。比如，地区聚类的实现在很大程度 
上依赖于一个合理安排的地理单位的框，而且分层的实现也依 
赖于根据一些分层变量构成的群体的框。人们一般将常用的抽 
样框存储到电脑中，从而便于重新安排来满足抽样的需求。 

一个理想的抽样框需要将总体中的每一个元素有且只 
有一次地列出来，并且不包含其他排列。在实践中，很难实 
现这一理想，而抽样调查者需要了解它们的不完美之处。基 
什 ( Kish ， 1965:53— 59) 提供了对潜在抽样框问题和解决方 
案的四重分类。这四个问题分 别是： 

—缺失元素 （missing elements ) :即总体中的某些元素 
不被包含在抽样 框中； 

一群:某些列举是对于元素的组而言，而非元素 本身； 
—空白或者外来元素 （foreign elements ) :某些 列举并 
不与抽样调查的总体中的元素相关； 

—重复列举 (duplicate listings ) :—些总体中的元素不 
止一次被列举。 

下面，我们将讨论这些问题以及其解决方案。 
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第1节 I 缺失元素 


在前面的学生调查中，假设我们拿到了在校学生的名 
单。关于这一抽样框的第一个问题，就是它是否包含了我们 
目标总体的全部学生。如果抽样框是不够的 （ inadequate ) , 
即该抽样框目标不是包含总体，或者该抽样框是不完整的 
( incomplete )， 即它没有包含应该包含的总体中的一些元素， 
那么在这两种情况下就会出现缺失元素问题。不够与不完 
整抽样框之间的差别在现实中非常重要，因为前一类更加容 
易识别。比如，学校名单如果刻意排除了总体中的非全日制 
学生部分，那么它就是不够的；如果学校名单由于过时而没 
有包含一些新的学生•那么它就是不完整的。 

存在缺失元素是柚样框最严重的问题，因为除非人们找 
到一个方法来补救，这些元素永远不可能被抽取，样本也因 
此失去了对总体的代表性。有时可以绕过这一问题，方法是 
通过定义将这些缺失元素排除在抽样调查的总体之外。这 
一方法虽然不完美，但是如果排除的元素是总体中可以被忽 
略的一小部分，这一排除对抽样调查对象仅仅有很小的影 
响.同时在没有其他处理方法的情况下，可以采用这个排除 
的方法。一个更好的方法是寻找补充性的抽样框来覆盖缺 
失元素.比如，使用特殊学生以及新生的名单。这一方式可 
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能产生重复的问题，因为一些元素可能不止一次出现在名单 
上，但这一问题可以通过下面的方法解决。 

通常来说，人们并不能得到合适的补充抽样框来覆盖缺 
失元素，因此可以寻求一个包含某种形式的链接程序 
(linking procedure ) 的方案。链接程序的目的是将缺失元素 
以一种被清晰定义的方式附加到特定的名单中。当人们选 
定了一个名单，它的元素以及任何与其链接的缺失元素就被 
当做群来抽样。因此，链接会产生群的问题,而这一问题可 
以通过下面描述的方法来解决。在我们前面所举的学校的 
例子中，假如抽样框包含了字母序列的班级最初人学的学生 
名单。一个将缺失学生链接的方式则可以是定义每个字母 
序列的名单包含被列出的学生以及班级中缺失的学生，其中 
缺失的学生出现在该被列出的学生之后并在下一个被列出 
的学生之前。为了在名单开始前将缺失学生覆盖，这一名单 
可以被当做循环的 （ circular )。 因此，任何一个处在名单中最 
后一个被列出的学生后面的或者在名单中第一个被列出的 
学生之前的缺失学生就被链接到名单中最后一名学生。这 
种形式的链接是半开区间 （ half-open interval ) 的一个例子，而 
这一方法可以被用到很多其他场合中。一个广为人知的应 
用是以街道顺序在住址名单中抽取住址.而街道的每一边都 
被当做独立的，使用这种半开区间，缺失元素可以被链接到 
名单中最后被列出的住址之上。 
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第2 节丨群 


正如之前指出的，使用链接的方法会产生抽样框中的元 
素的群的问题。然而，群的问题也可能在其他场合出现 - 
比如，当我们希望对个人或者住户进行抽样.然而抽样框是 
住所的时候。一个解决方法是将被抽取的群中的所有元素 
都包含进去。这一方案的好处在于能够使元素在列表中与 
在样本中以同样的概率出现;尤其当列表是按照等概率抽样 
进行抽样的.那么元素也是按照等概率抽样抽取的。当元素 
为家庭而群为住址的时候，这一方案仍然是可行的.理由如 
下 :首先 ，大多数住址仅包含一个家庭，包含一个以上家庭的 
住址 很少； 另外，在同一住址采访多于一户很少会有实地 
问题。 

一个方案是从全部群中进行抽样，正如我们前面讨论过 
的，当群的平均规模比较大而群内相关性比较高时.整群抽 
样会带来比较大的设计效应。如果设计效应非常大.我们可 
以在群中再进行抽样来缩小群的规模。对于某些类型的群 
而言，再次抽样的另一个原因在于担心在某一个群中可能出 
现应答污染 （contamination of responses )。 考虑到这一问题. 
人们一般可以在每个被抽取的群中再抽取一个元素。这一 
问题在态度调查时较常岀现.其中个人为元素而群为家庭 
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(或者住址） ：当 一个家庭中的两个或者更多的人接受采访 
时，后面的受访者可能会受到之前采访的干扰。后面的受访 
者也可能更加不愿意合作,甚至也许会拒绝回答其中的某些 
问题.因为他们已经从前面受访者的经历了解到了问卷的内 
容和长度。当我们从一个 包含艮 群中抽取单个元素时，每 
个元素被抽取的概率为 （ 1/札 ） P(a ) ，其中 PG ) 为该群被抽 
取的概率。如果群是按照等概率抽样抽取的,那么元素的样 
本就是非等概率抽样的，因此我们需要在研究中调整相应权 
重(见第10章）。 

为了避免选择偏差,从已被选取的群中抽取元素必须严 
格按照概率机制实现。我们从一个家庭中选取符合条件的 
成员中的一个作为应答者进行面对面访问。此时，访问员最 
好在第一次采访此住户的时候以随机抽样的形式来选取受 
访者，如果选取的受访者在家的话可以随即完成访问。一个 
可能的方法是，访问员首先将所有符合条件的家庭成员列成 
表，然后使用随机数表来选取一位成员。这一方法的一个严 
重弱点在于，出了问题检查不出来.访问员有时可能选择在 
家的并且较为配合的受访者，而没有正确使用这一方法。 

一种广为使用的用来选取住户中的受访者的替代方法 
被称为基什表选择法 （the Kish selection grid )。 这一客观并 
可以检查的方法是，访问员以一种清晰定义的顺序记录符合 
条件的住户成员，并将其填人问卷中包含的带数字编号的表 
格中，然后访问员从中读出被选的受访者的编号。一个比较 
方便但不失准确性的给住户成员排序的方式是将他们按照 
性别和年龄排序。因为排序中我们仅仅需要相对年龄，所以 
很少需要询问其绝对年龄，代的差异一般在不同性别的年龄 
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序中已经足够。为了给这一方法举出简单的例子，假设我们 
需要调查有工资收人者，以及一个家庭往往包含不超过四个 
这样的成员。在一个特定的问卷中，一个指示调查员选取访 
问哪一个受访者的表格如下： 


如果该家庭中具有工资收人者的人数为： 1234 

访问编号如下的工资收人者： 1223 

第二行的数据根据问卷的不同，参照表 8.1 而不同。 

在一个只包含一个工资收人成员的家庭中，该收人者将 
会被选择。在包含两个工资收人者的家庭中，如果问卷包含 
了表格 A, B 或者 C 时，第一个被列出的工资收人者会被采 
访; 如果问卷包含了表格 D，E 或者 F 时，第二个工资收人者 
会被采访。表 8.1 的第二栏给出了问卷中包含某一个表格的 
比重.从中我们发现问卷包含表格 A，B 或者 C 的比例是 
1/2,而问卷包含表格 D. E 或 F 的比例也是1/2。因此.在一 
个包含两个工资收人者的家庭中，每个工资收人者都是有可 
能被选入样本的。同理，在一个包含三个工资收人者的家庭 
中，每个成员被选中的可能性都是相等的，而在一个包含四 
个工资收人者的家庭中，每位成员被选中的可能性也是相等 
的。 因此.尽管从一家庭中选择一个工资收人者将导致工资 
收入者在有不同数目的工资收人者的家庭被选择的概率不 
同，基什表选择法却可以让我们在给定家庭中的所有工资收 
人者的被选概率是相等的。 

正如这里描述的，这一程序假设一个家庭最多包含四个 
工资收人者。当我们提高这一上限时，就需要更大的表格。 
当我们从美国的家庭中抽取成人时，一般设置人数上限为六 
个。基什 （Kish. 1965:399) 给出了当人数上限为6时所用到 
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的八个表。这些表格使得规模为1，2, 3. 4和6的家庭成员 
被选择具有相同的概率，然而规模为5的家庭成员的被选概 
率却是不完全相等的。在包含六人以上的少数家庭中，一些 
成员可能不能被代表。然而，这一缺漏不是大问题，在实际 
中并不重要。 

如果人们通常采用等概率抽样抽取群，第一种解决群的 
问题的方法是将所选取的群的所有元素包含在内，从而得到 
一个元素的等概率抽样样本。然而，这一方案一般是不可接 
受的，因为它很有可能被污染。第二种方案是在所选取的群 
中随机柚取一个元素，这可以避免样本被污染的风险，却可 
能改变抽样的概率。第三种方案使用了两期抽样方法，在每 
一群中抽取一个元素然后保留一个等概率抽样样本。使用 
这种方法，人们在第一期的抽样中抽取群并且在群中列岀其 
中的元素。然后，第二期的抽样从前面的列表中抽取元素。 
举例而言，假设群为住户，并且家庭规模在六人以下。第一 
期中我们抽取住户样本，从而产生一个所需要成人数量的六 
倍的名单。然后，从这一名单中使用系统抽样抽取要求数目 
的成年人，每个住户中抽取的成年人个数不超过一个。 
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第3节 | 空白与外来元素 



空白元素和外来元素指的是已经不在总体中的元素（比 
如去世者、迁移者或者已经被抹去的住址）或者虽然在抽样 
框中但并非抽样调查所关注的元素（比如在对工资收人者调 
研时未被雇用的人们）。为了简单起见，我们用“空白” 
( blanks ) 简称空白与外来元素。 

处理空白元素的方法非常直 接：人 们只需要在抽取到该 
元素时将其忽略即可。这一方法已经在我们前面高中的例 
子中有所体现，其中一些已经离开学校的学生成为了空白。 
空白对于抽样框的主要影响是样本量小于我们选择的数量， 
因为我们会抽到一些空白并且扔掉它们。在决定抽样比率 
以及理想样本量时，人们需要将这一点铭记于心。在系统抽 
样中常犯的一个错误是使用空白元素的下一个元素进行代 
替。人们应当避免采取这一方法，因为它增加了下一个元素 
被选择的概 率:该 元素可能会被直接选取或者因为之前的空 
白元素被选取。在系统抽样下，抽样区间应当在总体中被重 
复，而其中空白元素可以从样本中被剔除。 

在实际操作中，区分什么情况下能够在抽样框中识别空 
白元素很重要。如果能识别，当它们被抽中的时候，人们将 
其删去即可，然而在无法识别的情形下，需要在删除它们之 
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前与其取得联系。举例而言，在一个男人和女人的列表中抽 
取男人的样本时，人们会在选择阶段通过人们的名字来去掉 
几乎所有 女人; 然而，对于一个对40岁至64岁人群的调查， 
人们则需要采取筛选访问 （screening interviews ) 来决定被抽 
取的个人是否可以被包含到调查中。在对少数群体进行抽 
样调查时.一个困难在于调查的目标总体仅包含抽样框很小 
的一部分，并且抽样框并未提供识别少数族群的方式。正如 
上面所提到的 ，一 个对少数族群进行识别的方法是使用两阶 
段抽样，其中在第一阶段使用相对经济的抽样过程来识别少 
数 族群。 
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第4节 | 重复列举 




当抽样框由数个列表组成时，重复列举 （ duplicate 
listings) 的问题会经常出现，因为一些元素可能会在多于一 
个列表中出现。当元素为小组时，比如家庭，而当列表为个 
人时，这一问题也会出现。重复元素带来的问题在于，元素 
被抽取的概率随着它们被列举的次数而变化。一个可能的 
解决方案是在总的抽样框中将重复列举去掉，然而这常常并 
不可行。第二个可能的方案是使用独特识别 （unique identifi- 
cation), 即将每个元素与其中某一个列举以一种被清晰定义 
的方式联系起来（比如，第一个列举或者最旧的列举），然后 
将该元素的其他列举作为空白元素处理。应用这一方法的 
一个案例是英国的选举人登记中的家庭抽样。在城市地区， 
选举人被编号并且在以街道地址划分的投票区被列出。然 
后，根据选举编号，人们可以通过系统抽样得到一个选举人 
的 样本。 如果被选取的选举人是在该地址被列出的第一个， 
那么该地址则被选取，而该地址的第二个或者接下来的选举 
人则被当做空白元素。然后，人们可以采取通用的方法来解 
决群的问题，所有该地址的家庭都被包含在了样本内。 

有时候，抽样框的组织或者其包含的信息并不能够轻易 
让人们使用独特识别的方法。在这种情况下，独特识别可以 
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被应用到实地调查中，让受访者提供他们的列表信息。然 
而，一般而言，联系受访者的过程将成为调查费用的很大一 
部分，因此将一些元素作为空白将其删去的做法是不经济 
的。一个替代性的方法是接受所有的选择，同时在分析中使 
用加权的方式来调整元素不同的选择概率(参见第10章）。 










无应答 
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概率抽样通过将抽样框中的每个元素赋予一个已知且 
非零的被选择的概率来避免选择偏差 （selection bias )。 上一 
部分中，我们介绍了用来消除或者降低由于抽样框不完美所 
导致的问题的方法。给定一个好的抽样框，我们就可以从总 
体中抽取一个概率样本，然而在实际搜集数据的过程中，我 
们仍然会遇到一些问题。无应答 （nonresponse ) 或者说在抽 
样调查中不能搜集到某些被选择元素的信息，就是近年来我 
们在抽样调查中常常遇到的问题，因为公众现在越来越不愿 
意参与调查了 （ Steeh , 1981)。 

无应答带来的潜在问题是，无应答者与应答者可能在我 
们的调查变量方面存在系统性差别，因此根据抽样调查得到 
的估计量会与基于总体估计的参数有偏差。为了更深人地 
理解无应答带来的偏差，我们来考虑一个简单的模型，其中 
总体被分为两组-一应答者和无应 答者; 我们可以将这两组 
人想象成应答者和无应答者的层。然而，在现实中受访者是 
否提供应答也有运气成分，因此这一模型实际上过于简化， 
但这一简化模型对于我们的分析目的而言已经足够了。另 
外，为了简单起见，我们假设抽样调查需要对总体的全部元 
素进行完整编码。假设调查的目的是得到空，即总体均值。 
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这一均值可以被表示为： 

Y=W,Y r +W„,y,„ 


其中 t 和匕,分别为应答者和无应答者层的均值(下标 
r 代表应答者， w 代表缺失，即无应答者），和 W „, 则为两 
群体在总体中所占的比重 + V ^ =1)。因为抽样调查无 
法得到无应答者的信息，我们只能得到大的估计。而丈与 
总体参数 f 的差 别为： 

Y r -v=y r - cw r y r + w m y OT )=y r (i-w r >- w m Y m 
= W , AY r - Y m ) [9.1] 

这一差别，即当我们使用应答者均值替代总体均值时， 
依赖于两个因素 :一是 W ,„ ，即总体中无应答者的 比例； 二是 
(丈一^„)，即应答者与无应答者的均值差。如果应答者和无 
应答者的层是随机形成的，那么二者的期望均值应当相等， 
因此我们的佔计不存在偏差。然而，在实际中，我们假设无 
应答者为随机是非常危 险的； 事实上，我们通常有一些理由 
证明这一表现并非随机。因此,唯一能够确保无应答偏差在 
较小范围内的方法是使得无应答的层足够地小，从而使得 
(之一^„)与职„的乘积不至于太大。因此，抽样调查者往 
往需要费尽心思降低无应答率。 

在讨论无应答问题时，区分其可能发生的两个层次是很 
有用的：总无应答 （ total[or unit ] nonresponse ) ，即我们没有 
从该被抽取元素上获得任何信息，以及项目无应答 （it em 
nonresponse ) ，即有一些信息没有从该被抽取元素上获得。 
总无应答常常被简称为“无应答”。接下来，我们会依次介绍 
总无应答以及项目无应答。 
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在面访调查中.总无应答可以被分为以下 几类： 拒绝被 
访; 无法联系到受访者（如不在家或找不到 h 受访者由于疾 
病、耳聋或者语言不通，从而无法进行 访问； 甚至问卷丢失的 
情形也被包含在内。在以上几类中，拒访以及不在家占据主 
要地位，而其他因素在大多数抽样调查中都不是很重要。在 
信件调查 (mail survey ) 中.一些样本中的人们也许会发送一 
个他们不希望参加访问的回执.而有时候他们的邻居或者亲 
属会回复说受访者生病无法提供答复.有时一些问卷会因为 
查无地址而被邮局退回来。然而，大多数信件调查的无应答 
仅仅是问卷并没有被寄回来。导致这一结果的原因有很多， 
包括受访者拒绝回答，无法完成问卷或者问卷无法被送达到 
受访者处。 

为了尽可能地降低拒访数量，人们在抽样调查中使用了 
很多方法，甚至数据搜集模式的选择也往往受到拒访的相对 
风险的影响。在面访调查中，访问员受到细致的培训以尽可 
能避免拒访.他们往往会询问受访者一个更加方便的时间对 
其进行访问。访问员往往会对受访者强调该访问的重要性， 
并常常提及该访问由一个声誉卓著的赞助机构 支持; 一个好 
的赞助机构在信件调查时尤为重要。另外，访问通常会强调 
调查的匿名性和保密性，从而消除受访者对其应答会被用做 
他途的担心。问卷开始往往会安排简单而无威胁性的问题， 
从而避免受访者看到问题感到尴尬或者担心需要上税而终 
止调查的风险。拒访率变化很大，常常依赖于问卷调查的内 
容、问卷长度以及调查团队的技术。 

人们一般使用回访来解决拒访中不在家的问题。在面 
访中，当访问员无法联系到受访者时，他们一般会被要求至 
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少回访四次，并且四次回访需要在不同的时间（日期以及一 
天中不同时段，甚至晚上）进行。如果访问员在某个不在家 
受访者的周边地区进行访问，那么他们甚至被鼓励做第五次 
回访。在提高联系受访者成功率方面.预约是一个有用的办 
法。在电话访问中，用到回访的次数 更多； 因此电话访问中 
打电话的数量显然要比面对面访问打电话的数量多。在信 
件调查中，与回访类似的一种做法是跟进 （ folbw - up ) ，即给 
无应答者再次寄去访问的请求。然而，跟进的做法并不是为 
了解决不在家的问题，而是为了提高应答率。一个常常被用 
到的方法是给在一定时间段内未寄回信件者发送提醒信件， 
并且给上一阶段没有提供应答的受访者再次发送提醒以及 
问卷。事实证明，跟进是一个提高应答率的好办法。读者可 
以参考迪尔曼 （ Dillman . 1978) 中的提高信件调查中的应答 
率的其他办法。 

抽样调查的应答率被定义为有效成员完成的问卷数量 
与样本中有效成员数量之比。这一定义虽然非常直观，但在 
遇到空白元素和外来元素的时候，我们还是会遇到一些问 
题。根据定义，此类非有效成员应当被排除在分子和分母之 
外，但判断一个成员是不在家还是空白元素却并不总是可能 
的。因此，举例来说，对于一个使用随机拨号调查时抽取到 
的一个号码，当重复拨号没有应答时，可能该号已被停用.为 
空白号，或者打电话时该住户不在家。类似地，在一个对18 
岁到24岁的年轻人的调查中 ，一 个没有应答的住户可能包 
括也可能不包括一个以上我们目标群体的成员。在实际中， 
这种情形在不同的调查中的处理方式不同，从而导致了不可 
比的无应答率。因此，应当谨慎对待汇报的应答率，尤其看 
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看它们是如何计算的。 

现在，对于并不复杂的由非政府调查机构实施的面访的 
应答率在70%到75%之间，并且其变动程度根据调查条件 
有所不同。一般来说，拒访是无应答的主要原因，然后就是 
不在家。较面访而言，电话访问常常有更低的应答率，其中 
拒访是主要原因。电话访问同时也有很多中断访问的情况 
( break - off ) ，即在访问中间受访者停止了访谈。信件访问的 
应答率变动很大，从10%到超过90%。这一波动部分地依 
赖于跟进的程度，以及调查主题与受访者的相关性。 

以目前的拒访率来看，不能忽略无应答偏误的风险。更 
重要的是，常常有证据表明无应答并非均匀分布在不同群体 
中，而是在一些群体中更加严重。比如，面访中的无应答率 
在城市内部比城市的其他地方更高。因为无应答率的不同， 
不同子群体中所抽取的样本的分布将与我们预期的不同。 
当这些群体特征与调查的变量相关时.以上偏差就会引起无 
应答率的偏误。如果我们能得到不同子群体的无应答率，那 
么我们仍然可以尝试通过使用加权调整对这一偏误进行调 
整，这一方法我们将在下一章中提到。然而，人们应当注意 
到，这些调整仅仅是对已知的不平衡的分布进行了调整，但 
不一定能够消除--甚至降低无应答偏误。仅仅当无 
应答率为调查变量的总样本中各个子群体的一个随机子集 
时.这一方法才能消除无应答偏误，而这一情形在实践中基 
本是不可能的。因此,虽然使用加权调整可以让我们努力消 
除无应答偏误，但这并非解决此问题的完美方案。使用加权 
调整并不能削弱在数据搜集中追求高应答率的努力。 

项目无应答.即数据搜集中出现的不合适的断裂，其出 
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现有一系列原因。受访者可能不知道问题的答案，或者因为 
某些问题比较敏感、尴尬或者他们认为其与调查主题不相关 
时而拒绝 回答。 在调查访问的压力下，访问员可能错误地跳 
过了问题或者没有记录下来问题的答案。即使当答案被记 
录到问卷上时，它可能也是无效的，因为其与其他问题的回 
答不一致。项目无应答的变异依赖于该项目的特性以及数 
据搜集的模式。简单的人口学的项目无应答率很低，然而对 
收入与支出的项目无应答率则有10% 以上; 非常敏感或者很 
难回答的问题可能有很高的项目无应答率。 

一个解决项目无应答率的方法是将分析限制在有回应 
的那些项目内。在单变量分析中，总无应答率和项目无应答 
率常常可以通过这种方式来解决。因此，我们可以使用公式 
9.1 中应答者的均值来估计总体均值.其中 W „, 现在被定义 
为没有给某一条目提供应答的各个元素的数量 一一 完全没 
有回答或者没有回答该项目 -一 与合格元素的总数之比。 
因此，总无应答偏差在此与项 B 无应答偏差是被同等对 
待的。 

与总体无应答中使用加权调整对应，人们可以使用很多 
填补方法 ( imputation ) 来解决项目无应答率问题。这一方法 
通过给缺失应答填补值实现，在此过程中会将问卷中应答者 
对其他条目的回答作为辅助。一个方法是根据人们对其他 
相关条目的应答来将样本分为不同层级 （ classes ), 然后将该 
层级的该问题的应答者的均值作为该层级无应答者的值。 
这一方法能够部分弥补层级之间不同条目的不同无应答率 
的问题，并且在估计总体均值方面，它与对总无应答使用基 
于相同层级的加权调整是等价的。 
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使用层级均值进行填补的劣势在于，它扭曲了该条目的 
分布,在该条目无应答之处使用均值替换.使得该层的均值 
处出现突起 （ spike ), 从而减少了分布的方差。一个变通的方 
法可以避免这一问题，即将该层该条目的某一值赋予无应答 
处。美国国家统 ft 局使用过这种方法，也被叫做传统热卡法 
(traditional hot deck method ) 。首先人们分出层级，并给每 
一层级用该条目的单一值进行赋值，这一赋值可能基于上一 
次调查得到。然后，当前调查的记录可以按顺序进行。如果 
该条目是有应答的，这个值就会取代该层所被赋予的值。如 
果得到了无应答，那么其取值则保留为之前该层中所存储的 
值。这一方法的主要优势在于其具有计算的经济性，因为所 
有的填补都是根据数据中的单个来源进行的。然而，这一方 
法的缺陷在于，一个应答值可能被分配到了多个无应答处； 
当在一个层级内，具有缺失值的一条记录后面跟着一条或一 
条以上的缺失值时，这种情况就会出现。这种方法的另一个 
变体能够最小化应答值的多种用途，其方式是先通过将所有 
记录值排序分层级，然后将应答者和无应答者进行 匹配; 这 
一方式也不需要设置初始值 （ start-up values )。 这一方法是 
美国统计局进行当前人口普查的辅助调查 （March Income 
Supplement of the Current Population Survey ) 使用的一■个复 
杂填补方法的基础 (Welniak and Coder . 1980)。 

另一个填补的方法使用了回归方程来预测缺失值，具体 
而言，使用应答者在问卷中对其他条目的回答作为预测变 
量，以便从应答者样本中得到回归系数。我们可以通过使用 
回归方程得到预测值作为填补.然而这么做的后果是该条目 
的方差将会偏低，正如层级均值的方法的缺陷一样。对这一 
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方法的一个修正是在回归预测过程中加人随机残差来避免 
对方差的低估。 

填补的一个重要作用在于我们可以得到一个没有缺失 
值的数据集，而这能够极大地帮助我们的研究。然而，调查 
研究者需要意识到此过程中用到了填补。被填补的值应当 
在数据中被标出，从而让分析者能够区分真实值与填补值。 
与原始数据对比，一个包含了填补值的调查数据得到的结果 
应当得到严格的审查。其中的一个原因在于这一方法会带 
来估计量更高的、不合理的精确度。另一个原因则是虽然填 
补可能会降低单变量分析中无应答条目带来的偏误，但在多 
变量分析中，这一做法可能扭曲变量之间的关系.从而影响 
估计结果。对于一个填补方法的回顾以及这一方法对估计 
量的影响，请读者参考卡尔顿和卡斯普什克的研究 （Kalton 
and Kasprzyk , 1982)。 
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调查数据的分析可以使用很多种统计方法。这一部分 
并不回顾这些内容，而仅仅讨论与复杂抽样设计相关的分析 
方法。接下来要讲的分别是调查分析中权重的使用以及计 
算复杂抽样设计中估计量的抽样误差的方法。 
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第1节 I 权重 


在抽样调查的分析中•人们一般用权重来给一些元素赋 
予相对其他元素而言更高的相对重要性。当抽样中使用了 
不等概率抽样时.我们就需要使用加权的方法；另外，这一方 
法在事后分层 （ poststratification ) 以及调整总体无应答时也 
会用到。下面，我们从介绍一个非等概率抽样设计中的加权 
方法开始，然后介绍其他的应用。 

为了说明加权是如何实现的，我们首先考虑一个样本量 
为10的小样本。为了对一个大学的学生进行抽样.假设我 
们手中仅有的名单为每个课程的注册名单的总和。然后，我 
们从这些名单中抽取一个等概率的名单的样本——比如系 
统抽样-然后将被抽到的名单中的学生作为样本。假设 
名单的总数为970,我们按照1 : 97的比率抽取就可以得到 
一 个包含10个名单的样本。但因为大多数学生选取了不止 
一门课.而学生在他们所选的课程屮的编号是不同的.我们 
得到的名单的等概率抽样样本就会产生一个学生的非等概 
率抽样样本。某个学生选课的数量越多•其被选择的概率就 
越大。 

假设抽样调查的一•个目的是估汁学生购买的教科书的 
平均数量，而表 10.1 给出了 10个学生购买的教科书的总量 
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以及他们所上的课程数量，从而购买的教科书的简单均值为 

1]1=^=4.70。但这显然是一个对该大学所有学生购买 
n 1U 

教科书数量的均值的有偏佔计，因为样本中学生被选择的概 
率是不等的。通过考察表 10.1 中的数据，我们看到学生选择 
的课程越多.其购买的教科书也会越多.从而简单的均值会 
高估总体均值。为了解决非等概率抽样样本的问题，我们使 
用与被选择概率成反比的权重来处理。如果一个元素的被 
选择概率为 Pi . 那么其权重应当为 k / p ,. 其中 k 为任何为了 
方便而选择的常数。 


表 10.1 包含10个学生的样本中购买教科书的 
数量和选修课程的数量（假设 数据） 


学生号码 

教科书的 
数量 (>， i ) 

选修课程的 
数量 ( n ) 

权重 

Wj = 12/ r , 

uj=Wjyi 

1 

2 

1 

12 

24 

2 

5 

2 

6 

30 

3 

6 

3 

4 

24 

4 

8 

3 

4 

32 

5 

3 

2 

6 

18 

6 

7 

4 

3 

21 

7 

6 

4 

3 

18 

8 

3 

2 

6 

18 

9 

5 

3 

4 

20 

10 

2 

2 

6 

12 


47 


54 

217 


显然,我们可以选择 k 为1.从而权重为 1/ Pi 。 因此，当 
我们以1 : 97的比率来在样本中抽取时•被抽取的学生的权 
重应当为 97/ ri , 其中 r , 为第 i 个学生选取的课程数量。因 
此，学生1的权重为97,学生2为48.5,学生3为32.3,依此 
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类推。当估计总体的总数时，比如估计该校学生购买的教科 
书总量时.使用々=1比较有用，因为々=1时总体的总数可 
以通过加权总和计算岀来。然而.被选概率常常非 
常小，并且不容易被处理，此时我们就可以选取其他々的值 
来简化权重。当我们采取 6 = i 以外的其他值时，加权样本 

总和就需要除以々来估计样本总数;然而.我们并不 
需要对均值、比率、方差以及其他对样本采取均值的统计量 
做其他调整。 

另一个明显的选择权重的方法是将权重设为选课数量的 
倒数， l / r ,. 因为这一变量是使得每个学生被选择概率不等的 
原因。对于第一个学生，这一权重为 1. 第二个学生为 0.5, 第 
三个学生为0.33,依此类推。这一方法潜在地预设6= 1/97, 
是完全可以接受的，但是这要求对1/3的取值四舍五人。为 
了避免这一点，在表 10.1 中的权重被设为 12/ r , (潜在预设 
k = 12/97)。当我们使用了这一权重时，样本均值 则为： 

夕 u . = 

这里. =217/54 =4.02, 这比我们之前估计的有偏的 

简单均值 y =4.70 小了很多。 

因为 w = 2作为的分母并非固定而是随着不同 
样本而变化的，所以加权均值是一个比率均值。正如第6章 
所讨论的，比率均值是总体均值的有偏估计，但是当分母的 
变化系数小于 0.1 时•这一偏差可以被忽略。将名单的样本 
作为简单随机抽样并且忽略 FPC 项.我们可以用以下方式估 
计权重的 方差： 
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v ( zv ) = yis 1 w =n 2 ( w , — w ) 2 / (?i ― 1) =—^~ =69.33 

因此， w 的变异系数的估计 值为： 

cv ( w ) = se ( w)/w = - Jv ( w ) /w =8.327/54 = 0.15 

尽管该系数超过了 0.1, 但它已经小到足够保证比例均 
值的偏差并非不可 接受。 因为这一系数会随着样本量的增 
大而减少，因此当我们有实际上会大很多的样本时，这一偏 
差不是大问题。 

正如第6章所讲的•估计的加权均值的方差也是比例均 
值的方差。根据比例估计量的理论应用， jv 可以被写为 
X ] sw / w ， 其中变量《，被定义为《, = W ,： V , 。然 
后.给定 w 的变异系数小于0.2, 的一个近似的方差的估 
计则可 以为： 

v (. y w ) = [^ (m ) + y , c ~ v ( w ) — 2 y w c(u , w )^\/ w 2 

而上式仅仅是将我们现在的表示法代入了公式6.5。使 
用表 10.1 的数据，我们可以做下列 计算： 

v ( u ) =?i (uj — u) 2 /(n — l ) =3 241/9 =360.11 
c(w , zu ) =?i 2 ( m , — u)(zvi — w)/hi — 1) =52/9 =5.78 


因此 




52、 


' 3 241 +(W) 2 f-Cm 




■)( 


54 2 


= 0.491 5 


并且 se ( y w ) =0.70。 
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有必要比较这一非等概率抽样样本的精确度与具有相 
同样本量的简单随机抽样样本的精确度。为此.我们需要一 
个购买教科书数量的方差的估计量。我们可以根据公式 
10.1 给出： 



—y-u ,) 2 


= 4.382 


[ 10 . 1 ] 


因此，对于一个包含10个样本量的简单随机抽样，忽略 

2 

FPC 项 ，通过 >(%)=_=0.438 2, 可以估计岀样本均值的 
方差。因此非等概率抽样样本的估计设计效 应为： 




^ (夕 
v(,y 0 ) 


0.491 5 
0.438 2 


= 1.12 


说明不等概率抽样使得方差增加了 12%。在抽样框不 
完美的情况下采用不等概率抽样所带来的精度损失是正常 
的•并且当抽样概率变化很大时，这一损失可能非常可观。 
因此，当我们面临这种情况时，应当尽量避免选择概率的变 
化太大。 

作为在抽样框不完美情况下需要使用加权的第二个例 
子，我们考虑元素的群构成的抽样名单。假设在某个城市中 
我们从 A 个住址中抽取了一个住址的等概率抽样样本，然后 
我们使用基什选择表在每个被选择住址中随机抽取一个成 
人。因此在住址 a 抽取到成人0的概率 如下： 

P ( a ^) = P { a ) P ^ I a )=( a / A )( l / B 0 ) 

其中艮 是在住 址《 居住的成人数量。为了解决选择成人的 
概率不等的问题，我们需要在分析中使用与 1/ P ( a /?) = 
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AB a / a 成比例的权重。一个明显的加权方法是将每个被抽 
到的成人的权重设置为其住址包含的成人数（比如扎 ）（ 尽 
管这些权重在理论上是必须的，但在实际中人们通常很少用 
到，因为它们非常小.每个住址包含的成年人个数的变异性 
并不大，因此它们通常仅仅对调查统计量有微乎其微的影 
响。参见 Kish ， 1965:400)。 

另一个会导致不等概率抽样的抽样设计是非比例分层。 
第4章已经讨论了一个总体均值的估计可以通过先在每一 
层计算样本均值，然后将这些估计通过加权平均又„ = 
^ zv h y „ 合并 起来。 一个替代性的方法是为每一个被抽取 
的元素分配权重，在每一层中给所有的元素相等的权重，但 
是不同层之间的权重不同，然后我们可以使用 3 V 。 这些权 
重与每一层中被选择概率的倒数是等比例的。比如，= 
kN h / n „ 为层/;中被柚取的元素的权重。因此我 们有： 


= 2 S 2 

h i 

= N h S h / N h = 


所以九和 i 是相等的。在此情况下，并非比例均 
值，因为其分母为常数。使用而不是 i 有一个计算上的 
便利:一旦我们设置了权重，我们就可以使用加权数据的标 
准电脑程序来得到调查统计量。 

加权也可以在选择后分层 （stratification after selection ) 
或事后分层 （post stratification ) 的方法中实现。通过这一方 
法，一些补充变量的总体分布的信息会被用到增加样本估计 
量的精度的分析中。因此，比如，当我们从最近的人口普查 
中知道了总体中年龄的分布，样本就可以按照年龄组被划 
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分，在每个年龄组中计算调查变量 J 的均值 （ S )， 这些均值 
联合起来可以得到总的估计量 iv =乏] xt 1 /, . V /, • 其中 t ,, 为总 
体中年龄组 A 的比重。在不等比例分层中，事后分层的均值 
也可以通过加权均值的方式表示出来，其中每个元素具有与 
N ,, In ,, 成比例的权重。如果忽略无应答与无覆盖 （ noncover - 
age ) 的问题，事后分层能够调整层之间可能由于几率不同而 
不同的样本分布，从而使得其服从一个已知的总体分布。给 
定一个事后层 （ poststrata ) 的期望样本量为10个或10个以 
上，事后分层的均值的方差大致等于基于相同层的等比例分 
层的均值的方差。在为已知而每个元素属于哪一个层在 
选择阶段不能被确定的情况下，事后分层是有用的。在这种 
情况下，事前分层 (prior stratification ) 不能被使用，但人们可 
以通过被柚取的元素来搜集信息，使其能够被分配到某一层 
中，从而可以使用事后分层。事后分层也可以被充分应用于 
抽样设计阶段使用的分层因子之外的因子中。对于按比例 
分层而言，当调查变量的层间有一定异质性，也就是说层中 
有同质性时，事后分层所获得的精确性可以累积。 

将样本进行加权调整到一个已知的总体分布不仅仅会 
对样本波动产生影响，也会对无应答以及无覆盖（一些元素 
没有被包含到抽样框中）产生影响。比如，当无应答率在年 
轻人中间更高时.或者当他们更多地在抽样框中缺失时，对 
样本进行加权从而保证其服从一个已知的年龄分布可以解 
决这些问题。然而，这里人们应当注意到，这一方案是通过 
将应答者在给定的年龄组内进行加权实现的。对于每个年 
龄组之内的应答者和无应答者在调查变量方面的区别而言， 
一些无应答的偏差仍然存在。 
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与事后分层类似，对无应答或无覆盖的事前加权调整要 
求人们从外部来源获得一些辅助变量的总体分布的信息，比 
如年龄。无应答调整的另一个类型仅仅依赖于样本中的信 
息，但这一信息必须是对应答者和非应答者都适用的。元素 
所在的层的信息或者初级抽样单位的信息常常被用做这一 
类型的调整。比如，假设样本被按照地理区域划分，而在某 
一区域之内.将其按照该元素是否属于农村、郊区或者城市 
中心的位置划分。给定一个等概率抽样的样本，对无应答率 
的变动在组间的调整可以通过给层的应答者分配 / r „ 
来实现，其中为被选取的总样本量•而 o , 为该层被访者样 
本量。这些调整使得受访者样本的分布服从总样本的分布， 
其中层中的应答者被加权来代表该层的无应答者。这种类 
型的调整仅在无应答时进行，而非无覆盖。 

在实际中，设置权重可能是一项非常复杂的任务.因为 
人们往往需要做一系列的调整。但首先，可以设置权重来调 
整不等抽样概率，然后将其根据样本中某一层中不同的应答 
率来进行进一步调整.最后再采取一些修正使样本分布使其 
服从一个已知的总体分布。在设置权重时应当非常小心，因 
为在此过程中很容易岀现严重问题。 
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第2节 | 抽样误差 


正如我们已经在不同的抽样设计中讨论的，抽样估计量 
的抽样误差 （sampling errors )程度依赖于调查的抽样设计。 
统计学以及大多数电脑程序中的标准误差公式仅仅与无限 
制抽样 （unrestricted sampling ) 有关（有放回的简单随机抽 
样）。不应当无条件地将这些公式应用到其他抽样设计中， 
否则可能导致高估，或者更常见的是会低估抽样误差。 

在无放回的简单随机抽样情形下，样本均值的方差比具 
有相同样本量的无限制样本的均值的方差小，并且其比率为 
(1 — / ) ，即有限总体修正项 （ finite population correction 
term )。 当总体较大时，抽样比率 / 常常比较小, FPC 近似于 
1。在这种情况下，可以在简单随机抽样设计中放心地使用 
无限制抽样的标准误差公式。 

一个在层内使用简单随机抽样的比例分层抽样设计给 
岀的统计量，至少与使用简单随机抽样设计得到的统计量具 
有一样的精确度。由于层内元素具有相对抽样变量而言更 
高的同质性，这些估计量的精确度实际上更高。这种设计的 
无限制抽样的标准误差公式因此会趋向于高估统计量的抽 
样误差。当 FPC 项能够被忽略以及通过分层所获得的精确 
度很微小时，仅使用无限制抽样的标准误差公式即可。然 
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而，在完全信赖这些公式之前，最好检查一下忽略分层得到 
的精度收益是否合理。 

有两方面使得非比例分层抽样的情况更加复杂。第一， 
由于非比例分层是非等概率抽样的，使用无限制抽样的标准 
误差公式需要使用总体参数的加权后的估计量。比如，无限 
制样本中的样本均值的标准误为;在非等概率抽样情 
况下使用这一公式，总体方差应当通过公式 10.1 中的加 
权项4估计出来。第二，非比例分层对调查估计量精度的 
效果并不像它在等比例分层中一样一目 了然: 非比例分层抽 
样得出的估计量与具有相同样本量的无限制样本得出的估 
计量相比，可能更精确或者可能更不精确.具体情况则取决 
于样本在不同层之间的分配。假设调查元素的成本对于所 
有层都是一样的，对于估计某一变量的总体均值的样本最优 
的分配会产生至少与其等比例分配情况下相同的精度，而当 
该变量在不同层之间的元素方差发生变化时，其精度还会更 
高。这一无限制抽样的标准误差公式因此会趋向于髙估均 
值的抽样误差。然而，使用无限制抽样的标准误差公式会趋 
向于低估这一设计下的其他估计量的抽样误差。 

非比例分层常常被用来分别提供不同领域研究的估计 
量，其中层代表了以更高比率抽取的小的领域，从而使其在 
领域内具有足够的样本。这种应用方法常常导致总体估计 
量的精度损失，并且当以更高的比率在一些领域抽样时，这 
一损失更严重。举一个简单的例子，考虑两个层，每层都是 
一个单独的研究领域并且人们对其分别估计估计量，其中一 
个层包含90%而另一个层包含10%的元素，并且为简单起 
见，假设这两个层具有相同的均值和方差。如果从每个层中 
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抽取具有相同样本量的样本，我们就需要两层比率为9 : 1 
的权重来得到总体的估计量。如果忽略 FPC 项的话，与具有 
相同样本量的非限制样本相比，总体样本均值的方差就被提 
高了 1.64 倍。当需要通过显著变化的不同权重来调整不等 
概率抽样时，就可能会导致精度的可观损失。其结果是，使 
用非限制抽样的标准误差公式可能会严重低估抽样估计量 
的误差。 

当群的层内相关性系数 p 为正时，与具有相同样本量的 
简单随机抽样相比，群就会有精度损失。这一损失既依赖于 
p 的大小也依赖于每个群被选择的平均子样本大小，正如我 
们在第5章中所讨论过的。当平均子样本量比较大时，即使 
P 比较小，这一损失也会相当严重。非限制抽样的标准误差 
公式会趋向于低估多阶段群样本所得到的估计量的抽样误 
差，而且常常是可观的低估。 

在实践中，抽样设计往往是很复杂的.既包含了多阶段 
抽样，也包含了在每一抽样阶段的某些形式的分层。常用的 
设计包括按比例抽样以及等概率抽样，或者近似等概率抽 
样。通常来说，这些统计量的抽样误差计算的实证结果，是 
由于群导致的精度损失会大于由于按比例分层所得到的收 
益，从而使得复杂抽样设计与具有相同样本量的无限制样本 
相比，会产生较低精度的估 计量； 即，设计效应大于1。设计 
效应的大小依赖于一系列因素.包括群的特征、每个群的平 
均子样本量、所使用的分层方式、研究的变量以及统计量的 
形式。因此，在全国范围内的概率样本 ，一 些基本人口变量， 
比如年龄和性别，其均值和比重的设计效应一般接近于1,表 
明了地理群对于这些变量表现出非常小的内部同质性。然 
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而，对于社会经济变量以及相关变量的设计效应一般会大于 
1，因为社会经济地位相同的人更可能居住在一起。对于总 
体的子群均值或比例来说，设计效应在群之间基本是平均分 
布的，或者说是跨群的，它们基本小于基于总样本的均值或 
者比例的设计效应。两个子群均值的设计效应的差别一般 
小于子群的均值的设计效应本身。回归系数的设计效应一 
般与均值间设计效应的差相似。然而，不管对于什么统计 
量，复杂抽样设计的设计效应基本总是大于1的，这一效应 
有时很小，但有时很大。因此，使用非限制抽样的标准误差 
公式一般会高估抽样结果的精度。 

近年来，人们发展了一系列电脑程序来计算复杂抽样设 
计下统计量的抽样误差。从卡普兰和弗朗西斯的研究中 
(Kaplan and Francis , 1979) ，我们可以看到这种程序的一个 
列表。在大多数情况下，这些程序将初级抽样单位 （ PSU ) 作 
为有放回的抽取，尽管在实践中人们往往采用无放回抽取。 
将初级抽样单位当做有放回的抽取会高估方差，但是这一高 
估是很微小的，因为我们考虑到第一阶段抽样比率很小。有 
放回抽样假设的重要优势在于计算的经济性以及假设的慷 
慨性。正如在第5章中所说的，如果第一阶段的抽样比率很 
小，样本均值的标准误可以简单地通过初级抽样单位总体的 
变化估计出来;人们并不需要在初级抽样单位内部根据抽样 
的变化来估计，而这一点节省了人们很多计算上的工作。然 
而，更重要的在于，这一假设非常 慷慨: 在有放回抽样的假设 
下，可以应用对于特定估计量的标准误差模型，不管初级抽 
样单位内部采取了什么子样本的方式。因此，当元素按照 
(1) 在被选的初级抽样单位内使用简单随机 抽样； （2) 使用系 
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统或分层抽样或 （3) 采用进一步的抽样或分层阶段抽取时， 
相同的公式都可以被使用。这一慷慨性非常有吸引力，不仅 
在于一个简单的程序就能产生出任何形式的子样本设计的 
估计量的标准误，更在于该程序的用户并不被要求根据抽样 
设计来应用这一程序。这些程序的使用仅仅需要每个抽样 
数据的记录包含其属于哪一个初级抽样单位的指令，以及第 
一阶段分层的信息。 

计算复杂抽样设计的估计量的抽样误差有一些一般性 
的方法。其中之一就是泰勒展开 （Taylor expansion) 或者德 
尔 塔方法 (delta method ) ，正 如我们在第 6 章中讨论比例均值 
时提到过的（见公式6.5)。这一基本方法是获得一个对估计 
量的线性近似来获得估计量的方差。对于一些简单的估计 
量而言，这一方法使用起来非常方便。很多复杂样本设计中 
的计算样本均值、比例、子群均值和比例以及均值和比例的 
差的方差均使用了这一方法。 正 如在第 6 章中提到过的，对 
于比例均值或者比重的方差的估计对泰勒展开法的合理使 
用要求比例的分母的变异系数小于0.2。大多数程序在它们 
的输出中提供这一系数 的值； 特别是对于子群的分析而言， 
常常需要检查这些值以保证它们足够地小。 

估计标准误的另一个方法是将样本设计为允许标准误 
估计在任何估计量下都能被计算。正如在第7章中提到的， 
重复抽样方法能够通过将总样本构造为一系列独立重复的， 
每一个都是相同样本设计的联合体来实现这一目标。每个 
重复估计的变动因此可以作为联合样本的标准误的估计基 
础,不管估计量或者重复样本的设计如何复杂。正如之前讨 
论过的，使用具有多阶段设计的简单重复抽样的重要缺陷在 
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于，为了估计标准误达到一定精度所需要的足够的重复抽样 
次数.以及人们希望得到很多分层来获得精确的调查估计量 
之间的矛盾。有鉴于此，人们很少使用简单重复抽样。作为 
-种替代，人们发展了伪重复抽样 （ pseudoreplication ) 的技 
术，其采用了简单重复标准误估计量的优势.能够尽可能地 
提供对标准误的估计，同时避免了对分层的限制。我们会简 
单介绍平衡重复复制 （Balanced Repeated Replications , BRR ), 
其有时也会被称为半样本复制（ half-sample replication ) ( Kish 
and Frankel , 1970, 1974; Frankel , 1971; McCarthy , 1966)。 

BRR 方法常常与成对选择设计 （paired selection design ) 
一起使用.在每个层中选取两个初级抽样 单位。 正如之前说 
过的，在很多多阶段设计中，将初级抽样单位们分层直到每 
个层选择出一个初级抽样单位，此时我们就需要用折叠层法 
来估计 方差; 成对的折叠层近似于配对选择设计的方法。在 
BRR 方法下.从每个层中选择的两个初级抽样单位会被当做 
独立选取的一样。从重复抽样的角度看.这一样本可以被当 
做由两个重复的样本组成，其中一个包含两个初级抽样单位 
中的一个，即从每个层中随机选择的，另一个则包含剩余的 
初级抽样单位。如果 〆 表示基于第一个复制样本，或半样本 
的参数 Z 的样本估计(比如，回归系数)，而表示基于另一半 
样本，或补充样本的对应估计，那么根据重复抽样理论.我们 
就可以根据公式 7.1 计算5 = ( z ' + /)/2 的方差，其中 r = 2 

tK 云） =[( 2 ’ 一 i ) 2 + ( z 〃 一 z ) z ]/2 [10.2] 

在实际中.总体上用来估计 Z 的是 J ， 方法是将两个一 
半的样本合并起来，但是 i 和2通常极为接近。因此，作为 
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一个近似，在上述方差的估计式中可以用£替代。 

简单重复复制方差的估计量的局限性在于，它仅仅基于 
一个自由度，在实践应用中的稳定性不够。 BRR 中解决这一 
问题的方案是重复从母样本中构造半样本的过程，每次都计 
算出方差估计量，然后计算得到方差估计量的均值。因此， 
如果 d 表示基于第 t 个半样本的2的估计值.而/为基于其 
对应的另外半个样本的估计值，则2的方差估计量可以由下 
式给出： 


= S [( 〆 一 2) 2 + { z "~ 2) Z ]/2 T 

以上平均是基于了个半样本以及其另一半得到的，并在公式 
10.2 中使用2代替5。 

以上部分解释了 BRR 的“重复复制”部分。其中，“平衡” 
部分指的是半样本的选取方式。了个半样本并不是被独立抽 
取的，而是以平衡的方式被抽取的，从而产生一个总体方差的 
有效估计量。为了实现总体平衡.被选择的半样本数量了需 
要大于等于层的数量且需要是4的倍数。因此，比如，当我们 
有22个层时 （ 比如,在成对选择设计中有44个 PSU ), T = 24 
个半样本就能够实现总的 平衡； 当我们有47个层时，就需要 
T = 48个半样本。如果 z , 的计算需要大量的工作，并且当层 
的数目相当多时，为了实现总体平衡所需要的对所有半样本 
的计算就可能是惊 人的; 在这种情况下，我们就可以在不同的 
技术下少使用一些半样本来实现部分平衡。 

刀切重复抽样 (Jackknife Repeated Replications , JRR ) 是 
在复杂抽样设计下的另一个方差估计方法 （ Fmnkel , 1971； 
Kish and Frankel , 1974)。 像 BRR —■样.它使用了重复复制 



抽样调查方法简介 


方法。在 IRR 方法下，人们通过扔掉单个初级抽样单位，并 
且将该层中的其他初级抽样单位加权，从而实现复制来保留 
层之间的样本分布。这一操作会被重复数次，每次扔掉一个 
不同的 PSU 。 当被抽取的初级抽样单位总数§非常小的时 
候，其中的每一个就可以被依次扔掉来产生§个复制，但这 
一工作并非必须要全部完成。唯一的要求在于，每一层需要 
有至少一个初级抽样单位被 扔掉; 如果对于一个或多个层， 
这一条件没有被满足，这些层所贡献的方差就不会在总体方 
差估计中被代表。令办，表示基于根据层 h 生成的第（个复 
制得到的 Z 的估计，对于 i 的一个 JRR 方差估计量则由下式 
给出： 


v(z) = (a h —l)(z hl —z) 2 /«h 

h=l / = 1 

其中 a h 为层 h 中所抽取的初级抽样单位数目， 4 为从层 h 中 
扔掉初级抽样单位得到的复制的数量。当样本中的每个初 
级抽样单位都被依次扔掉后， fh = a h 。 正如这一公式表明 
的， JRR 优于 BRR 的一个地方在于，它能够很容易地应用于 
除了成对抽样设计(即 a h =2时）以外的其他设计中。 

所有之前的方差估计方法都包含了近似，但是模拟研究 
表明它能得到令人满意的结果。对它们的选择很大程 
度上取决于计算的成本、程序的可得性、待估计量的适用性 
以及相应的抽样设计。泰勒展开方法常常对于简单估计量 
更普遍， BRR 和 JRR 方法的优势在于其适用于复杂的估计 
量。 BRR 方法的应用主要限于配对选取设计中，但这一设计 
在实践中也适合于绝大多数样本。当不适合的时候，就可以 
使用 ■ JRR 。 
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抽样调查通常针对非常多的变量进行数据搜集，并且会 
产生无数变量结果及其之间的关系。即使我们有抽样误差 
的电脑程序，计算一个调查报告中的所有估计量的标准误也 
是不可 能的； 即使有可能计算，最终的报告也会因此而过于 
冗长。由于这些原因，调查分析常常仅计算主要结果的标准 
误，并选择性地报告其他的标准误。之后这些计算可以用于 
发展更加一般性的模型，在那个时候再推断其他的标准误 
(参见 Kish , 1965:574—582)。 

抽样误差的实际估计的更多细节以及一般性抽样误差 
模型的使用可以参考卡尔顿的研究 （ Kalton , 1977)。基什和 
弗兰克尔 （Kish and Frankel , 1974) 的论文讨论了调查样本 
的抽样误差估计方法并提供了比较泰勒展开、 BRR 和 JRR 
方法模拟的结果。 





样本量 





124 


抽样调査方法简介 


进行抽样设计首先要面对的一个问题是，“我们需要多 
大的样本 量”？ 这一问题的讨论之所以现在才开始进行，是 
因为它与很多之前介绍的内容有很大联系。 

为了描述基本的想法，我们举一个面对面访问的简单例 
子，其目标是估计一个具有15 000成年人的城市在新图书馆 
落成后回答将会使用新图书馆的人所占的比例。为了决定 
一个合适的样本量，首先需要设定我们对估计量所需要的精 
度。这并不容易，因为人们开始所设定的精度要求一般都会 
被高估。比如，假设最初的设定要求一个估计量在2%的总 
体人口中有95%的可 能性; 换句话说,95%的置信区间应当 
为样本百分比加减2%。这一设定要求 1.96 SE ( p ) =2%,其 
中 P 为样本百分比。假设开始时我们使用简单随机抽样，并 
忽略 FPC 项， SE ( p ) ^ -/PQhn , 其中 P 为总体百分比, 
Q = 100 — P , n ' 为最初估计的样本量。因此 1.96 y PQ/n = 2 
或者 n '=1.96 2 PQ /2 2 。 为了决定》'，我们需决定 P 的值。 
由于 PQ 在 P = Q =50% 的时候最大，一个保守的选择是将 
P 设定为尽可能接近50%。假设我们认为 P 可能在15%到 
35%之间，那么保守的选择为 P =35%。有了这个选择，我 
们得到《'=2185。如果这一原始样本量与总体相比很小，可 
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以忽略 FPC 项，这一样本量就是可以的。然而，在目前的例 
子中，不能忽略 FPC 项。一个修正的样本量的估计方法是将 
FPC 项考虑在内，其中 N = 15 000,如下： 

n = Nn ' / (.N + n ') = 1 907 

上述的计算假设了简单随机抽样，我们需要对其他样 
本设计进行修正。这一修正包含了将简单随机抽样样本量 
与其他复杂设计中的抽样效应的相乘项。如果该城市的成 
年人列表在上述例子中是可能的，那么我们可以使用一个 
非聚类的等比例分层样本 （unclustered proportionate stratified 
sample )。 在这种情况下，通过分层我们得到了更多的精度， 
一个小样本就够了。然而，正如之前说过的，估计百分比时 
的等比例分层的收益一般很小，从而样本量的缩减仅仅是 
细微的。在目前的例子中，比如等比例分层设计下的样本 
百分比的设计效应的估计值为0.97,那么对于非聚类的等 
比例分层设计的样本量会给出在±2%置信区间内为 
0.97 X 1 907= 1 850。 

如果我们没有该市成年人或其住址的列表，我们可能需 
要进行地区抽样 (area sampling ) ，首先抽取城区，然后列举城 
区中的住址，从中抽取住址，最后从被抽取的住址中抽取一 
个或多个成年人。在这一抽样设计中，基本上必然会用到 
分层以及 PPS 选取。假设一个分层多阶段样本，我们从每 
个初级抽样单位（街区）中平均抽取10个人，那么预期的设 
计效应就是1.3。因此这一设计要求的样本量应当是 1.3 X 
1 907= 2 479。 

另一个在计算中需要被考虑的因素是无应答。假设预 
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测的应答率为75%，那么为了实现多阶段抽样的样本量是 
2 479个成年人，所需要的样本量应为2479/0.75=3 305。当 
然，这一调整仅仅是为了得到理想样本量，它并不能解决无 
应答偏差的问题。 

在这一点上，研究者可以回顾最初的精度设定来看能否 
将要求放宽。假设回顾时研究者将置信区间放松为± 3%， 
样本量从而可以被减少为1 581。在实践中，对某个估计量 
的精度要求并不是固定的。因此，样本量也常常基于调查成 
本与精度水平的粗略评估。但应当注意到，所选的样本量取 
决于一些预估的量，比如汇报将使用图书馆的人的百分比、 
设计效应以及无应答率。对这些量预估产生的误差会导致 
抽样估计量与我们设定的精度有偏差，但这仅仅是反向作 
用，估计量对于总体参数而言仍然是可信的。 

在固定了样本量之后，下一步是决定抽样比率。如果我 
们从一个有15 000成年人的城市抽取样本，就需要考虑名单 
上有空白元素（死亡或者搬离了该地区）和外来元素的可能， 
以及处理缺失元素时使用链接程序的后果。如果说名单中 
的4%为空白元素并且没有使用任何链接，抽样比率就应当 
为 2 479/(0.96 X 15 000) =0.172, 或者 1/5.81，从而得到 
2 479的样本量。在实践中，可以为了方便将这一抽样比率 
四舍五人，比如 1/5.8 甚至1/6,从而得到相应的预期样本量 
分别为2 483或者2 400。 

在多阶段地区样本中，抽样设计要求一个住址的样本， 
其中每个住址抽取一名成年人。假设在最近的人口普查中 
该城市包括6 500个住址。首先应当更新这一数字来修正从 
人口普查日到调查日之间的变化，同时修正两次普查之间任 
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何城市边界的变化。假设由于这些变化，目前住址的数量 
为6 750。除此以外，人们也需要考虑由于调查的抽样过程 
可能不能像人口普查一样完整地覆盖该城市；比如，样本的 
覆盖率可能为人口普查的95%。如果使用这一数字，为了 
得到所需样本量为2 479的样本，我们就需要抽样比率为 
2 479/(0.95 X 6 750)= 0.386 6, 或者 1/2.59 个住户。像以 
前一样，抽样比率可以四舍五人为 1/2.6, 从而得到预期样 
本量为2 466。 

虽然上述例子表明了选取样本量会遇到的几个问题，但 
它还是过于简单了。在实际调查中，抽样调查常常是多目的 
的，需要考虑很多估计量。另外，不仅在总样本中需要这些 
估计量，一些子群体也需要，比如一个国家的不同区域.不同 
年龄层的群体或者不同教育程度的人们，等等。很多研究中 
需要大样本的主要原因是，需要针对子群体的估计量保证足 
够的精度或者比较不同子群体之间的估计量。更大的样本 
能够使子群体样本的分析更精确，并且样本量越大，分析就 
越细致。样本量的选择常常取决于增大样本量导致的成本 
的增加以及分析上的收益的取舍。 
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这一章提供了两个例子来说明在实际应用中如何综合 
前面的技术。一个例子是对美国的全国性面访的抽样设计， 
另一个是对电话访问的抽样设计。 
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第1节 I 全国性面访调查 


密歇根大学的调查研究中心 （Survey Research Center , 
SRC ) 以及芝加哥大学的国情调查中心 （National Opinion Re ¬ 
search Center , NORC ) 都对个人、家庭、住户以及其他单位的 
面访有全国性的概率样本设计。它们每十年就会利用十年 
一度的人口和住房普查 （Census of Population and Housing ) 
的最新数据来修正这些样本的设计。在1980年普查之后， 
两个机构就一起合作，根据一个共同的抽样设计来选取它们 
的主样本。下面我们会描述这个设计,这是一个分层多阶段 
地区样本，其中在不同阶段使用了按估计容量比例的概率抽 
样 ( PPES )。 

NORC / SRC 全国性抽样设计的初级抽样单位 （ PSU ) 是 
标准都市统计区 （Standard Metropolitan Statistical Areas , 
SMSA ) 、区县或者在 1980 年人口普查中人数最少为 4 000 的 
县的小组。样本中绝对包含了 16个最大的 SMSA (比如，纽 
约、芝加哥、旧金山、波士顿、圣路易斯以及亚特兰大）。它们 
是自代表 （ self-representing )的初级抽样单位，可以被当做 
层。根据以下程序，通过 PPES 从剩下的初级抽样单位中抽 
取68个初级抽样单位,其中规模的度量为初级抽样单位中 
在1980年人口普查的有人的住房数量。首先，将初级抽样 
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单位分为68个具有大约相等规模的层（比如，包含近似相等 
的居住单位的数量）。这些层首先通过将初级抽样单位分为 
四个普查区域（中北部、东北部、南部和西部），然后在区域中 
分为 SMSA 和非 SMSA 来实现。然后， SMSA 进一步按照地 
理位置以及其中最大城市的规模分层。非 SMSA 被按照地 
理位置和其总的规模分层。然后，从68个层中使用 PPS 抽 
取一个初级抽样 单位； 为了保证初级抽样单位在其他控制变 
量上的代表性，比如南部农村黑人的比例以及西部西班牙人 
的比例，我们对层间的选择方式进行了控制（对于控制选择 
技术的描述，参见 Goodman and Kish , 1950； Hess et al . ， 
1975)。 

接下来的抽样程序是在16个自代表的 SMSA 和68个 
被抽取的初级抽样单位中抽取小群。这里抽取的群是城市 
地区的街区，其中普查已经提供了街区的统计量以及其他地 
区的编号。这些群最少包括48个居住单位。对于小于这一 
最低限度的居住单位，应根据地理相邻原则将其合并。这些 
群包含了被抽取的初级抽样单位中的第二阶段单位，并且其 
中的六个从调查机构 ( SRC 和 NORC ) 的主要样本中每个被 
抽取的初级抽样单位中得到。在每个自代表的 SMSA 中，这 
些群实际上是初级抽样单位。对每个机构.我们在八个最小 
的自代表的 SMSA 中选六个群，但较大的自代表的 SMSA 则 
需要更多的群被抽取。比如，对于每个机构的主样本，在纽 
约 SMSA 我们抽取24个群.而在洛杉矶 SMSA 则抽取18 
个群。 

在自代表的 SMSA 以及被抽取的初级抽样单位中选取 
群是通过 PPES 进行的，其中使用1980年有人的住房数量作 
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为度量规模。对于群的一个已排序的列表，我们使用系统抽 
样来得到对于排序时被使用的变量的模糊分层 （implicit 
stratification ) 的收益。在自代表 SMSA 或者被抽取的初级 
抽样单位中，群被按照区县排序，具体通过次级划分 （minor 
civil division ) 、普查地段 （census tract ) 或者地区编码以及街 
区号码排列。区县则按照规模和地理位置被排序。对于具 
有规模信息以及次级划分（当地政府的单位比如城市和城 
镇）的家庭收人中位数的20个州，这一划分是按照规模和收 
人中位数排序的。街区和编码地区是按照普查地段号码排 
序的，然后按照街区或者编码地区号码来产生地理顺序。 

根据这一程序产生的被抽取的群的规模变动很大，小到 
50个有人的居住单位，大到700个甚至更多。此后我们进一 
步在较大的群中进行抽样，从而将其规模缩小到一个可控的 
范围。 这一步骤首先要求这些群被划分为定义清晰的部分， 
然后对每个部分分配其规模的约数。这一过程基于 SRC 和 
NORC 调查人员对群的筛查，其中他们对有人的居住单位分 
布进行计数.然后从每个大群中使用 PPES 抽取一小部分。 

抽样设计的最后一步是调查人员在所有被选择的部分 
中对居住单位进行列表。这些列表可以被用做很多调研的 
抽样框。从名单中抽样的方法可能在调研之间有很大差别， 
并且即使在大的部分和小的部分之间也会有差别。因此.根 
据时间有效性来更新名单是非常重要的。 

对于其他关于全国性抽样设计的介绍，请读者参考美国 
人口 调查局 （ U . S . Bureau of the Census 1978 ) 或者基什 
(1965: 第9、第10章)关于 CPS 的介绍。 
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第2节 | 电话访问调查的例子 


近年来，在美国人口调查中使用电话访问的情况越来越 
多，一■部分原因是电话的高拥有率。在93%的家庭拥有电话 
的情况下，电话号码成为很多调查的一个有效的抽样框。然 
而，在考虑电话访问的时候，人们应当注意到剩下的没有电 
话的7%的家庭，因为这些家庭有很大一部分是低收入的，户 
主并非白人并且在35岁以下，或者居住在南方 （Thornberry 
and Massey , 1978)。在研究者需要对这些群体也有足够代 
表时，电话访问样本可以在一个双抽样框设计 （dual frame 
design ) 中与其他样本合并起来——可以是一个地区样本(参 
见 Groves and Lepkowski , 1982) 0 

当我们对一个既定的总体进行电话访问时，就面临了一 
个应当采用哪一个抽样框来抽取家庭的问题。一个明显的 
选择是已出版的电话号码簿，但是因为很多号码并不在其 
中，它并不充足。超过20%的住户号码不在电话号码簿中， 
因为 （1) 他们是新近搬 人的； （2) 订阅者缴费使其电话不被公 
开或者 (3) 在号码簿的准备过程中出现了错误。考虑到这些 
遗失的元素所导致的潜在偏差，我们可以使用多种修正方 
式，比如先抽取电话号码，然后在其最后一位加上一个常数 
或者使用随机数代替号码的后两位（参见 Frankel and 
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Frankel , 1977)。然而，这些方法并不能够给每个家庭一个 
已知并且非零的被选择概率，而这正是概率抽样所要求的， 
因此，这可能引起估计偏差。 

一个替代性的抽样框是采用所有可能的电话号码集。 
在美国，电话号码是由10位数字组成的，分为三个部分，比 
如301 —555—1212,其中第一部分是地区编码，第二部分是 
交换中心代码.而后四位则是后缀。总共有100多个地区编 
码以及30 000多个交换中心代码（比如，地区和交换中心代 
码的合并)在用。对于一个交换中心代码而言.有10 000个 
后缀可以用，但是其中的大多数是空号或者为商用的非居民 
号码。 

基于这种抽样框的一种抽取居民电话号码的方式是，从 
一个地区码/交换中心码的组合中随机选取一个（一个随时 
更新这些组合的名单可以从美国电讯的长线部门得到）.然 
后在0000到9999的范围内选取一个四位随机数来作为电 
话号码的后缀。随机数位拨号 ( Random-Digit Dialing ， RDD ) 
的一个简单版本会覆盖所有居民号码，但是它会有很多的空 
白元素(空号）以及外来元素（非居民号）。这些空白和外来 
元素当然可以简单剔除,剩下的样本从而构成一个居民号码 
的概率样本，但是由于为了剔除这些号码需要拨打很多电 
话，这一过程的费用高 昂：平 均而言，人们需要抽取五个号码 
才能得到一个居民号码。 

另一个 RDD 方法可以减少没用的电话号码，其描述见 
瓦克斯伯格 （ Maksberg , 1978)。这一方法将电话号码的抽 
样框视做一个100个数字的库的集合，其中的库由地区码/ 
交换中心码的组合以及后缀的前两位数定义。因此，每个地 
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区码/交换中心码组合之内，包括了 100个包含100个数字 
的库，即后缀 0000— 0099，0100^0199, 0200—0299，…， 
9900—9999。这些库可以使用等概率抽样抽取，并且在每个 
库中随机抽取一个数字。如果该数字并非居民号码，该库就 
被 拒绝; 如果是居民号码，那么就可以安排对其的访问,并且 
可以在该库中继续抽取随机数直到特定数目的家庭被抽 
取到。 

运用瓦克斯伯格方法 （Waksberg scheme ) ，选择并接受 
第，个库的概率与其包含的居民号码的比例成比例，即 B 。/ 
100.其中 B „ 为该库中居民号码的数量。给定库 a 被接受， 
一个特定的居民号码被抽取的概率为 （ b + l )/ B ^ 其中 b 为 
当第一个号码为居民号码时抽到的其他居民号码的数量。 
因此在库 a 中居民号码的选择方 程是： 


P ( a /3) cc 


b + 1 — b +1 
100 B „ = 100 


因此，如果每个库中正好选取了 b 个额外居民号码，这 
一方法就是等概率抽样的。实际上，这些库是用 PPS 抽取的 
初级抽样单位，其中样本量为初级抽样单位中的居民号码的 
数量，在每个被选的初级抽样单位中再抽取一个固定数量的 
居民号码。 

正如我们已经看到的，两阶段抽样的使用与有相同样本 
量的单阶段样本相比般会导致精度更低的抽样估 计量; 
即，其设计效应几乎总是大于1的。而当人们考虑到使用两 
阶段抽样方法的经济性及其需要相应增加的样本量超岀了 
其精度的损失的时候，这一方法就是合适的。而使用瓦克斯 
伯格方法的原因在于其能够产生更高比重的居民号码。在 
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这一方法下，群中大约2/3的号码为居民号码，这与前面简 
单方法所产生的1/5有很大差别。 

由于缺乏分层变量的信息，在电话抽样中使用分层是非 
常受限的。美国电讯提供的区域代码/交换中心码组合所构 
成的抽样框仅仅提供了每次交换的纵向和横向的 坐标一 
一个覆盖一组或一个交换中心码的地理单位——以及每次 
交换所包含的交换中心码的数量。根据这一信息，样本可以 
按照地理位置(使用中转地理坐标）以及通过中转的规模（使 
用被中转覆盖的交换中心码数量作为其规模的指标）来分 
层。格罗夫斯和卡恩 （Groves and Kahn, 19*79) 提供了更多 
的细节并描述了这一信息在分层中的使用，即用分层因子对 
一个地区码/交换中心码组合的列表进行排序，然后在这一 
列表中使用系统抽样方法。 

一些电话调查对住户搜集数据，其中访问者需要对指定 
的受访者或者受访者的集合进行访问。其他调研则对特定 
的个人搜集数据，而其常常为成人，其中居民号码能够确定 
一些元素的集合。这一抽样框的问题可以通过随机从中选 
取一个成人来解决，并且在分析中使用合适的加权方法。一 
个方法是使用我们在第8章中提到的基什表，但一些研究者 
认为在调查开始时按照性别和相对年龄进行列表对于访问 
员来说比较困难并且容易导致较高的据访率。因此，楚德和 
卡特 (Troldahl and Carter, 1964) 发展出一种技术来避免这 
一列表，只需要访员搜集该户中合格个体的数量以及合格男 
性(或女性)的数量。然后访问员可以参照一个表，其中合格 
个体的数量为一个轴而合格男性的数量为另一个轴，然后从 
对应的格子中读出被选中的个体编号;这个格子可能是要求 
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选取“最年长者”。与基什表一样，有很多不同设定的不同版 
本的表格可以决定选取谁，而对于不同样本，表格往往也不 
同。使用楚德一卡特方法，我们需要四个表格，每一个都具 
有相同的频率。布赖恩特 ( Bryant ，1975) 提出了一个修正性 
的方法来解决样本中男性过少的 问题; 她的方法对分了其中 
一个使得女性有更高概率被选取的表格的使用。虽然可能 
有偏，但是这些替代性的方法在实践中仍被广泛应用（一个 
实验性的比较，参见 Czaja et al . , 1982)。 

电话访问也面临着重复元素的抽样框的问题，因为一小 
部分的家庭有不止一个电话号码。这一问题可以通过从每 
个抽取的家庭中搜集其电话号码的信息来解决，具体是将与 
其电话号码数量成反比的因子包含到抽取的家庭或个人的 
权重中。 
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尽管本文着重介绍概率抽样，但由于非概率抽样也被广 
泛应用，我们不能对其避而不谈。这一部分讨论了部分类型 
的非概率抽样，包括被广泛应用的配额抽样 (quota sampling) 
技术。 

概率抽样的主要优势在于概率选择机制允许使用统计 
理论来验证样本统计量的性质。因此人们使用的估计量是 
有很小甚至没有偏误的，同时也可以得到样本估计量的精 
度。非概率抽样方法的弱点在于无法发展相应的理论，因 
此，非概率样本只能根据主观标准评判。另外，即使经验表 
明非概率方法在过去表现不错.但这并不意味着它以后也会 
这样。然而，除了这些弱点，不同形式的非概率抽样在实践 
中被广泛应用，主要是为了节省成本以及操作便利。 

一种类型的非概率抽样有多种名 称：偶 然抽样 （haphaz¬ 
ard) 、便利抽样 （convenience) 或者意外抽样 （accidental sam¬ 
pling) « 下面是一些 例子： 

一某调研的志愿者 被试； 

——某医生的病 人们； 

一某学校的孩 子们； 

-在某街角进行的访问； 
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一 某杂志中的问卷的应 答者； 

一 某希望得到反馈的电视节目中打进电话的观众。 

考虑到这些样本潜在的风险，使用它们得到的结果对总 
体进行统计推断是非常危险的。 

另一种非概率抽样被叫做判断抽样 (judgment sampling ) 
或者立意抽样 （purposive sampling ) ，抑或专家选择 （expert 
choice )。 在此情况下，某一样本是专家选取的，从而使得受 
访者具有“代表性”。举例来说，一个教育研究者选择某城市 
的一所学校来获得学校类型的一个界面。在实际中.不同专 
家很少会同意什么是“具有代表性的”样本，而很多时候这些 
判断样本 (judgment sample ) 都有一定的主观风险。 

随着样本量的增加，人们对判断样本的调查估计量的偏 
误，或者其他非概率样本估计量的偏误的担心也在增加。因 
此，应比较一个判断样本中的样本估计量与具有相同样本量 
的概率抽样的估计量。如果样本量很小，概率样本估计量的 
方差就会很大，在相对意义上判断样本估计量的偏误就不那 
么重要了。然而，当样本量增加时，概率样本估计量的方差 
减少，然而判断样本估计量的偏误则变化不大。这一点表明 
在样本量很小的时候，使用判断样本是合适的，但是当样本 
量较大时，则应当使用概率样本。因此，如果一个研究者只 
能在一个或两个城市中展开一项研究,使用专家选取也许比 
依赖于完全的随机抽样更好，因为后者很容易导致一个奇怪 
的样本。然而，如果样本量增加到了 50个城市，那么则应当 
考虑一个仔细分层的概率样本了。 

第三种类型的非概率抽样被叫做配额抽样。这一方法 
有很多变种，因其成本低廉、容易管理以及比概率样本更容 
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易执行的优点被广泛使用。这一方法的精髓在于访问员被 
分配给了他们应当访问的不同类型人的配额。比如，一个访 
问员可能被分配给了六个35岁以下男性、五个35岁以上男 
性、五个被雇用的女性以及八个未被雇用的女性的配额。对 
访问员在这四个组中分配配额的目的是为了避免（至少是控 
制 ) 访问员在选取其受访者时过于随意的情形。配额控制可 
能是相关的，正如上面的例子所给出的，或者也可以是彼此 
独立的——比如，设定10个男性、13个女性、11个35岁以下 
以及12个35岁以上的配额。 

抽取一个全国性的配额样本的开始步骤与全国性的概 
率样本一样，通常是用概率抽样实现的。仅仅是在最后选取 
受访者的阶段，这两种类型的样本才有所不同。对于概率样 
本，访问员需要采访通过概率机制选取的特定的个人，然而 
对于配额样本，他们需要完成他们的配额.通常也伴有额外 
的限制，比如他们应在什么时间打电话以及他们应遵循什么 
样的路线。配额样本的访问员可能还需要寻找适合其未完 
成的配额的受访者.具体方式是在被抽取的街区内从固定的 
起始点开始寻找,并且每个居住地点的访问不能超过一个受 
访者。 

我们还需要评论一下在配额抽样中对每一个住址的受 
访者不超过一个的控制措施。虽然这一控制能够使得样本 
在不同住址间分布更广泛，并且避免实地调查中在同一住址 
进行多个访问的问题，但它会使得较大规模的住址的个人被 
代表不足 （ underreprepresentation ) ( Stephenson , I 979 )。 当 
然，概率样本也常常仅在每个住址中抽取一个人.但在这种 
情况下.使用与抽取概率成反比的权重能够修正这一代表不 
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足的问题。 

在配额抽样中，通过这种控制方式形成的配额组通常与 
层相比，因为两者都代表了从不同组中抽取的样本。尽管二 
者具有相似性,但我们应当意识到两种类型的分组之间有重 
要区别，即在群中的元素抽取是通过概率方式进行的，但在 
配额组中则并非如此。这一区别导致了形成层和配额组的 
准则是不同的。因为概率抽样避免了抽样偏差，层的选择仅 
仅需要考虑如何提高调查估计量的 精度； 正如之前看到的， 
因为层的内部关于调查变量具有更强的同质性，精度的增加 
可以通过分层实现。另一方面，使用配额抽样的最重要的准 
则在于最小化选择偏差。为了达到这一目的，形成相对于调 
查变量来说内部同质性的配额组是有帮助的，但是首先需要 
考虑的就是在成员是否能够接受访问方面实现同质性，或者 
说，形成的不同组能达到组与组之间成员受访的可能性不 
同。考虑到后面一点，芝加哥大学的国情研究中心使用了四 
个配额组，这在20世纪60年代和20世纪70年代的基于“有 
配额的概率抽样”的调研中被引用.即 .35 岁以下的男性（或 
30岁以 下）； 35岁以上（或30岁以上）；受雇用的 女性； 未受 
雇用的女性 （ Sudman ， 1966； Stephenson , 1979)。这些特别 
指定的控制可以对一些难以找到的群体，比如，年轻人以及 
未受雇用女性的产生较好的代表性。通过使用对配额概率 
抽样方法在被抽取的界区内进行严格的访问员路线的地理 
控制.足以提供有较好的种族和经济构成的样本。 

在选择了配额组后，访问员的配额就由不同组之间的人 
口分布方面的数据可得性决定了，而这一信息往往由最近十 
年的普查得到。这些配额的设定可以或多或少地对所有访 
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问员一致，可以由不同组之间的人口分布方面的数据可得性 
决定，或者也可以根据访问员工作的抽样地区的分布特征发 
生变化。如果根据已经决定的配额得到的数据并不准确（可 
能是因为配额过时了），配额样本的分布就不会服从组间总 
体的真实分布。这一情况就与能够对这些不准确进行自我 
修正 ( self - correcting ) 的概率设计形成对比。 

有时候，配额抽样会被认为能够避免无应答的问题。然 
而在实际中.配额样本是将不能或者不愿意被访问的成员替 
换成其他的受访者。因此，尽管配额样本能够在配额控制下 
产生要求的分布，但是它对于那些很难联系到的或者不愿意 
参加访问的人而言，代表性依然不足。因此，相对概率样本 
而言，它实际上更可能对这些人代表不足，而在概率抽样的 
条件下，访问员需要对已经制定的样本中的成员进行访问采 
取坚持不懈的努力。 

但除了其弱点，配额抽样在实际中被广泛应用主要基于 
两个原因。第一是在被抽取的地区选取受访者时不需要使 
用抽样框。第二是访问员不需要回访来联系特定的受访者。 
在配额样本下，如果访问员通过电话不能联系到一个合格的 
成员，该访问员可以简单转到下一家。两个特征使得访问更 
加简单，并且与概率抽样相比，配额抽样的访问可以进行得 
更迅速。另一个相关的因素是配额抽样的成本更低。然而， 
这一成本则依赖于控制的 大小： 相应的控制越不严格，成本 
就越低，但另一方面，导致严重的选择偏差的风险也会更大。 
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抽样调查是一个高度专业化和迅速发展的调查领域。 
目前有众多抽样技术可以选择，但也要注意其中的陷阱。抽 
样调查的初学者需要在其过程中非常小心.因为调查结果的 
效用会因为抽样设计中的错误而受较大影响。正因为如此. 
当从事一项调查的时候，对抽样方面不甚了解的明智的研究 
者应当咨询一个资深的抽样统 计师。 

抽样调查的理论和实际方面的文献都非常丰富。由于 
篇幅所限，本书仅仅提供了这一主题的一个概览，但不能使 
读者理解所有技术的优劣。希望了解更多的读者可以参考 
这方面的专著。特别推荐基什 （ Kish , 1965)、汉森等人 
(Hansen et al . , I 953 ) 以及耶茨 （ Yates , 1981) 的著作，因为 
它们对抽样的实际应用讨论非常出色，另外，科克伦 
( Cochran , 1977) 、苏哈特姆 （Sukhatme and Sukhatme ，1970) 
以及默西 （ Murthy ，1967) 的著作对于抽样理论的讨论很详 
细。本书使用的符号和术语与基什 （ Kish , 1965) 基本一致， 
以便读者在阅读这些书籍时进行参考。戴明 （ Deming ， 
1960) 的书对重复抽样的广泛应用有很好的介绍，同时还提 
供了一些实际的建议。在较初级的水平，拉吉 （ Raj ， 1972)、 
利维和莱姆修 （Levy and Lemeshow , 1980) 以及苏德曼 ( Sud - 
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man , 1976) 的著作都很有用。斯图尔特 （ Stuart , 1976) 用非 
数学的方法通过一个数字很小的例子介绍了抽样的基本理 
念，而莫泽和卡尔顿 （Moser and Kalton , 1971) 的书中关于抽 
样的章节也提供了对这一主题的介绍。 
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the Kish selection grid 

Kish 表选择法 

proportionate stratification 

按比率分层 

Probability Proportional to 

按估计规模大小成比例的概率抽样 

Estimated Size, PPES 

Probabilities Proportional to 

按估计容量比例的概率抽样 

Estimate Size, PPES 

Probability Proportional to size 

按规模大小成比例的概率抽样 

Sampling, PPS 

half-open interval 

半开区间 

half-sample replication 

半样本复制 

technique of controlled selection 

被控选择技术 

ratio estimator 

比率估计 

fractional interval 

比率间隔 

ratio mean 

比率均值 

variability 

变异 

coefficient of variation 

变异系数 

convenience 

便利抽样 

Standard Metropolitan Statistical 

标准都市统计区 

Areas, SMSAs 

standard deviation 

标准偏差 

standard errors 

标准误差 

supplement sample 

补充样本 

strata 

层 

classes 

层级 

intraclass correlation coefficient 

层内相关性系数 

paired selection design 

成对选择设计 

lottery method 

抽奖方法 

sampling fraction 

抽样比率 

sampling distribution 

抽样分布 

sampling interval 

抽样间距 

sampling frame 

抽样框 
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sample surveys 

抽样调查 

start-up values 

初始值 

traditional hot deck method 

传统热卡法 

minor civil division 

次级划分 

underreprepresentation 

代表不足 

March Income Supplement of the 

当前人口普查的辅助调査 

Current Population Survey 

Jackknife Repeated Replications，JRR 

刀切重复抽样 

delta method 

德尔塔方法 

Equal Probability Selection Methods, 

等概率抽样. 

EPSEM 

area sampling 

地区抽样 

unique identification 

独特识别 

gaps 

断裂 

multistage sampling 

多阶抽样 

multiphase sampling 

多期抽样 

Second Stage Units, SSU 

二阶段单位 

analysis of variance 

方差分析 

interviewer variance 

访问员变异 

interviewer effects 

访问员效应 

disproportionate stratification 

非比例分层 

non sampling errors 

非抽样误差 

unclustered proportionate stratified 

非聚类的等比例分层样本 

sample 

unrestricted sampling 

非限制样本 

stratifieation sampling 

分层抽样 

probability mechanism 

概率机制 

follow-up 

跟进 

estimate 

估计 

interpenetrating sampling 

贯穿抽样法 

overrepresented 

过度代表 

callbacks 

回访 



译名对照表 


product-moment correlation coefficient 

simple random sampling 

hierarchy ； 

cross-sectional 

net changes 

blanks 

controlled selection 
purposive sampling 
linking procedure 
two-phase sampling 
two-stage sampling 
list 

panel rotation 
implicit stratification 
ultimate clusters 
target population 
Neyman allocatio 
haphazard 
judgment sampling 
judgment sample 
paired selection design 
quota sampling 
matching 

Balanced Repeated Replications, ERR 

census tract 

weights 

missing elements 
clusters 

census of population and housing 
screening interviews 
design effect 
time sampling 


积矩相关系数 
简单随机抽样 
阶层 
截面 
净变化 
空白元素 
控制选择 
立意抽样 
链接程序 
两阶段抽样 
两阶段抽样 
列表 

面板轮换 
模糊分层 
末级群 
目标总体 
内曼配置 
偶然抽样 
判断抽样 
判断样本 
配对选取 
配额抽样 
爾 

平衡重复复制 
普查地段 
权重 

缺失元素 
群 

人口和住房普查 
筛选访问 
设计效应 
时间抽样 
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poststrata 

poststratification 

prior stratification 

dual frame design 

double sampling 

table of random numbers 

Random-Digit Dialing» RDD 

Taylor expansion 

imputation 

survey estimator 

survey population 

foreign elements 

pseudoreplication techniques 

simple random sampling without replacement 

noncoverage 

unbiased 

unrestricted random sampling 

nonresponse 

systematic sampling 

item nonresponse 

mail survey 

selection equation 

stratification after selection 

selection bias 

subpopulation 

domains of study 

Primary Sampling Units, PSU 

accidental sampling 

contamination of responses 

simple random sampling with replacement 

Finite Population Correction» FPC 

element 


事后层 
事后分层 
事前分层 
双抽样框设计 
双重抽样 
随机数表 
随机数位拨号 
泰勒展开 
填补方法 
调查估计量 
调查总体 
外来元素 
伪重复抽样技术 
无放回的随机抽样 
无覆盖 
无偏 

无限制随机抽样 
无应答 
系统抽样 
项目无应答 
信件调査 
选择方程 
选择后分层 
选择偏差 
亚总体 
研究领域 
一级抽样单位 
意外柚样 
应答污染 

有放回的简单随机抽样 
有限总体修正 
元素 



译名对照表 


collapsed strata 

折叠层法 

cluster sampling 

整群抽样 

normal distribution 

正态分布 

confidence interval 

置信区间 

duplicates 

重复 

replicated sampling 

重复抽样 

duplicate listings 

重复列举 

expert choice 

专家选择 

subclusters 

子群 

subclass 

:#群体 

self-representing 

自代表 

self-correcting 

自我修正 

gross changes 

总变化 

population 

总体 

total/unit nonresponse 

总无应答 

longitudinal survey 

纵贯研究 
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